学位论文 > 优秀研究生学位论文题录展示

基于内容的网站聚类算法研究

作 者: 康永燕
导 师: 王晓龙;陈清财
学 校: 哈尔滨工业大学
专 业: 计算机科学与技术
关键词: 网站聚类 网站表示 网站特征提取 自然语言处理 中文分词
分类号: TP393.092
类 型: 硕士论文
年 份: 2008年
下 载: 57次
引 用: 2次
阅 读: 论文下载
 

内容摘要


随着互联网的飞速发展,无论是网页的数量还是网站的数量都呈现了巨大的增长,给人们快速有效的获取有用信息带来了巨大的挑战,因此,随着基于网页的web挖掘技术的成熟,基于网站的web挖掘也成为了人们越来越关注的问题,如逐渐流行的网址导航功能都是以网站分类为基础的。网站聚类是web挖掘的一个重要方向,对于发现站点间关系有重要意义,可用于网络社区发现、网站相似性分析、用户导航等多方面。本文的主要工作是通过利用自然语言处理等技术对网站的内容分析处理,采用网站的向量空间模型表示方法,通过采用多种网站特征选择方法、相似度计算法以及聚类算法,对基于内容的网站聚类进行研究,从而找到一种具有良好聚类效果的基于内容的网站聚类算法。首先,由于汉字和汉字之间不像英语那样有明显的分割符,本文首先对中文文本进行分词处理。本文采用的是基于重复串的无词典分词方法,主要包括分词预处理,汉字结合模式的获取和汉字结合模式的过滤三个部分。该部分的结果是获得了具有相对完整的上下文语义的词条,并且作为网站特征词提取部分的候选特征词条集。其次,由于网站是大量网页的集合,中文分词部分获得的候选特征词条集数目庞大,如果用它们全部作为网站特征,则向量空间的维数将非常大,不但影响聚类的精度,且计算的复杂度相当大,因此需要进行特征选择来降维。本文提出了3种网站的特征选择方法,互信息,CHI和TFIWF的方法。然后采用局部特征选择和全局特征选择相结合的特征选择策略,从网站候选特征词条集中选出网站特征词,作为向量空间的各个维,建立网站的向量空间模型。最后,在上面的网站向量空间模型的基础上,本文分别采用了基于划分(k-means,二分k-means)、基于层次(凝聚的层次聚类)和基于模型(SOM)的聚类算法,并且对聚类算法中的相似度计算,分别采用了欧式距离,曼哈顿距离和余弦定理三种不同的方法,从而通过网站特征选择,相似度计算,聚类算法的不同组合,找到一种效果较好的基于内容的网站聚类算法。

全文目录


摘要  4-5
Abstract  5-9
第1章 绪论  9-19
  1.1 课题背景  9
  1.2 课题研究的目的及意义  9-10
  1.3 国内外相关技术发展现状  10-18
    1.3.1 信息检索现状  10-11
    1.3.2 搜索引擎现状  11-14
    1.3.3 网站分类综述  14-15
    1.3.4 网站表示  15-18
  1.4 本文研究的主要内容  18-19
第2章 基于链接的网站聚类算法  19-28
  2.1 引言  19
  2.2 基于向量空间模型的网站聚类算法  19-22
  2.3 基于图模型的网站聚类算法  22-24
  2.4 分析比较  24-25
  2.5 聚类分析评估  25-27
    2.5.1 评价标准  25-26
    2.5.2 常用评价方法  26-27
  2.6 本章小结  27-28
第3章 基于内容的网站聚类算法  28-43
  3.1 引言  28
  3.2 网站内容特征提取方法  28-31
  3.3 基于后缀串的候选特征词提取方法  31-36
    3.3.1 网站预处理  32-33
    3.3.2 汉字结合模式的获取  33-35
    3.3.3 汉字结合模式的过滤  35-36
  3.4 基于内容的网站聚类算法  36-42
    3.4.1 算法流程  36-37
    3.4.2 相似度计算  37-40
    3.4.3 聚类算法  40-42
  3.5 本章小结  42-43
第4章 实验结果及评测  43-55
  4.1 引言  43
  4.2 实验环境  43
  4.3 评测方法  43-45
  4.4 实验结果及分析  45-54
    4.4.1 k-means聚类结果及分析  45-47
    4.4.2 二分k-means聚类结果及分析  47-48
    4.4.3 层次聚类结果及分析  48-50
    4.4.4 SOM聚类结果及分析  50-52
    4.4.5 网站聚类方法对比分析  52-54
  4.5 下一步研究工作  54
  4.6 本章小结  54-55
结论  55-56
参考文献  56-60
攻读硕士期间发表的论文  60-62
致谢  62

相似论文

  1. 词义消歧语料库自动获取方法研究,TP391.1
  2. 基于条件随机场的中文分词技术的研究与实现,TP391.1
  3. 主观题自动评分技术研究,TP391.1
  4. 基于WebHarvest的中文财经新闻搜索引擎的设计与实现,TP311.52
  5. 中文XML压缩技术研究,TP311.11
  6. 学术主页信息抽取系统的研究,TP393.092
  7. 基于自然语言打印机人机交互方法研究与实现,TP11
  8. 企业邮件监管系统的设计与实现,TP393.098
  9. 基于中文维基百科的语义相关度计算的研究与实现,TP391.1
  10. 基于话题的多文档文摘技术研究,TP391.1
  11. 基于丰富特征和多核学习的蛋白质关系抽取,Q51
  12. 基于WEB的社区智能医疗服务系统的研究,TP311.52
  13. AraOntoLT:基于阿拉伯语文本的本体学习框架,TP391.1
  14. 基于过滤技术的投诉信息智能分析与实现,TP391.1
  15. 自然语言理解中并列名词歧义消解及其在智能仪器设计领域的应用,TP391.1
  16. 基于词典和概率统计的中文分词算法研究,TP391.1
  17. 面向自然语言处理的汉语句子语义知识库构建研究,H13
  18. 筛选规则智能化生成的研究与设计,TP393.08
  19. 基于Ajax/Lucene的站内搜索技术研究与实现,TP393.092
  20. 中文网页热门主题获取系统的研究与实现,TP393.092
  21. 基于统计NLP技术的甲骨卜辞的分析研究,TP391.1

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 计算机网络 > 一般性问题 > 计算机网络应用程序 > 网络浏览器
© 2012 www.xueweilunwen.com