学位论文 > 优秀研究生学位论文题录展示

基于内容的网站聚类算法研究

作　者: 康永燕
导　师: 王晓龙；陈清财
学　校: 哈尔滨工业大学
专　业: 计算机科学与技术
关键词: 网站聚类网站表示网站特征提取自然语言处理中文分词
分类号: TP393.092
类　型: 硕士论文
年　份: 2008年
下　载: 57次
引　用: 2次
阅　读: 论文下载

内容摘要

随着互联网的飞速发展,无论是网页的数量还是网站的数量都呈现了巨大的增长,给人们快速有效的获取有用信息带来了巨大的挑战,因此,随着基于网页的web挖掘技术的成熟,基于网站的web挖掘也成为了人们越来越关注的问题,如逐渐流行的网址导航功能都是以网站分类为基础的。网站聚类是web挖掘的一个重要方向,对于发现站点间关系有重要意义,可用于网络社区发现、网站相似性分析、用户导航等多方面。本文的主要工作是通过利用自然语言处理等技术对网站的内容分析处理,采用网站的向量空间模型表示方法,通过采用多种网站特征选择方法、相似度计算法以及聚类算法,对基于内容的网站聚类进行研究,从而找到一种具有良好聚类效果的基于内容的网站聚类算法。首先,由于汉字和汉字之间不像英语那样有明显的分割符,本文首先对中文文本进行分词处理。本文采用的是基于重复串的无词典分词方法,主要包括分词预处理,汉字结合模式的获取和汉字结合模式的过滤三个部分。该部分的结果是获得了具有相对完整的上下文语义的词条,并且作为网站特征词提取部分的候选特征词条集。其次,由于网站是大量网页的集合,中文分词部分获得的候选特征词条集数目庞大,如果用它们全部作为网站特征,则向量空间的维数将非常大,不但影响聚类的精度,且计算的复杂度相当大,因此需要进行特征选择来降维。本文提出了3种网站的特征选择方法,互信息,CHI和TFIWF的方法。然后采用局部特征选择和全局特征选择相结合的特征选择策略,从网站候选特征词条集中选出网站特征词,作为向量空间的各个维,建立网站的向量空间模型。最后,在上面的网站向量空间模型的基础上,本文分别采用了基于划分(k-means,二分k-means)、基于层次(凝聚的层次聚类)和基于模型(SOM)的聚类算法,并且对聚类算法中的相似度计算,分别采用了欧式距离,曼哈顿距离和余弦定理三种不同的方法,从而通过网站特征选择,相似度计算,聚类算法的不同组合,找到一种效果较好的基于内容的网站聚类算法。

全文目录

摘要  4-5
Abstract  5-9
第1章绪论  9-19
  1.1 课题背景  9
  1.2 课题研究的目的及意义  9-10
  1.3 国内外相关技术发展现状  10-18
    1.3.1 信息检索现状  10-11
    1.3.2 搜索引擎现状  11-14
    1.3.3 网站分类综述  14-15
    1.3.4 网站表示  15-18
  1.4 本文研究的主要内容  18-19
第2章基于链接的网站聚类算法  19-28
  2.1 引言  19
  2.2 基于向量空间模型的网站聚类算法  19-22
  2.3 基于图模型的网站聚类算法  22-24
  2.4 分析比较  24-25
  2.5 聚类分析评估  25-27
    2.5.1 评价标准  25-26
    2.5.2 常用评价方法  26-27
  2.6 本章小结  27-28
第3章基于内容的网站聚类算法  28-43
  3.1 引言  28
  3.2 网站内容特征提取方法  28-31
  3.3 基于后缀串的候选特征词提取方法  31-36
    3.3.1 网站预处理  32-33
    3.3.2 汉字结合模式的获取  33-35
    3.3.3 汉字结合模式的过滤  35-36
  3.4 基于内容的网站聚类算法  36-42
    3.4.1 算法流程  36-37
    3.4.2 相似度计算  37-40
    3.4.3 聚类算法  40-42
  3.5 本章小结  42-43
第4章实验结果及评测  43-55
  4.1 引言  43
  4.2 实验环境  43
  4.3 评测方法  43-45
  4.4 实验结果及分析  45-54
    4.4.1 k-means聚类结果及分析  45-47
    4.4.2 二分k-means聚类结果及分析  47-48
    4.4.3 层次聚类结果及分析  48-50
    4.4.4 SOM聚类结果及分析  50-52
    4.4.5 网站聚类方法对比分析  52-54
  4.5 下一步研究工作  54
  4.6 本章小结  54-55
结论  55-56
参考文献  56-60
攻读硕士期间发表的论文  60-62
致谢  62

基于内容的网站聚类算法研究

内容摘要

全文目录

相似论文