学位论文 > 优秀研究生学位论文题录展示

基于搜索词的网页结果聚类研究与应用

作　者: 马千驰
导　师: 彭宏；张劲松
学　校: 华南理工大学
专　业: 软件工程
关键词: 网页聚类向量空间模型搜索词 CBC算法
分类号: TP393.092
类　型: 硕士论文
年　份: 2010年
下　载: 83次
引　用: 0次
阅　读: 论文下载

内容摘要

近年来,随着互联网的迅猛发展,互联网上的各种信息迅速膨胀,如何快速准确的查找到用户所需的信息变得异常重要。伴随着这一需求,搜索引擎技术得到了长足的发展,并且出现了一批非常优秀的搜索引擎,而且已经出现了一些基于聚类的搜索引擎。与传统的以线性列表的形式为用户返回搜索结果的搜索引擎相比,基于聚类的搜索引擎最大的优点就是将用户的搜索结果以聚类的形式返回,从而进一步方便了用户在海量信息中快速准确地找到自己所需的信息。但现有的这些基于聚类的搜索引擎基本都只是建立在单纯的对网页内容的聚类上,而忽略了用户的搜索词和网页之间的关联信息。我们的论文主要工作是提出了基于用户搜索词的网页聚类算法,将近义词聚类的CBC (Clustering By Committee)算法思想应用到网页聚类中。采用向量空间模型,分别从特征值权值计算、文本向量相似度计算和聚类中心点确定三个方面对CBC聚类算法进行了改进。特别的,我们在特征值权值计算中加大了搜索词在文本向量中的权值,通过这种方式来体现用户的搜索词对网页聚类结果的影响。通过实验证明了该改进算法的可行性和有效性。最后,在提出的改进的聚类算法基础上,设计和实现了一个中文网页聚类系统。该系统采用模块化设计,实现了从网页抓取到聚类的整个网页聚类过程。

全文目录

摘要  5-6
Abstract  6-10
第一章绪论  10-14
  1.1 本文的研究背景及研究意义  10-11
  1.2 国内外研究现状及应用  11-13
    1.2.1 研究现状  11-12
    1.2.2 存在的问题  12-13
  1.3 本文的主要内容及组织结构  13-14
第二章 Web文本挖掘概述  14-29
  2.1 Web文本挖掘的概念及特点  14-15
    2.1.1 Web文本挖掘的概念  14
    2.1.2 Web文本的特点  14-15
    2.1.3 文本挖掘的特点  15
  2.2 Web文本挖掘的一般过程  15-16
  2.3 Web文本挖掘方法  16-19
    2.3.1 文本分类  16-17
    2.3.2 文本聚类  17
    2.3.3 关联分析  17-18
    2.3.4 文本总结  18
    2.3.5 分布分析和趋势预测  18-19
  2.4 Web文本获取  19
  2.5 Web文本挖掘预处理  19-28
    2.5.1 Web正文提取  20
    2.5.2 向量空间模型  20-21
    2.5.3 中文分词  21-23
    2.5.4 特征项选取  23-26
    2.5.5 特征项权重  26-28
  2.6 本章小结  28-29
第三章 Web文本聚类介绍  29-41
  3.1 Web文本聚类  29-30
    3.1.1 Web文本聚类的概念  29
    3.1.2 Web文本聚类的过程  29-30
  3.2 文本相似度的计算  30-32
  3.3 Web文本聚类算法  32-35
    3.3.1 基于划分的方法  33-34
    3.3.2 基于层次的方法  34
    3.3.3 基于模型的方法  34-35
    3.3.4 SOM神经网络  35
    3.3.5 基于网格的方法  35
  3.4 Web文本聚类结果质量评估  35-37
  3.5 现有的网页聚类系统  37-40
    3.5.1 Scatter/Gather  37
    3.5.2 Carrot  37-38
    3.5.3 SHOC,LINGO  38
    3.5.4 SnakeT  38-39
    3.5.5 Vivisimo  39-40
  3.6 本章小结  40-41
第四章聚类改进算法  41-52
  4.1 CBC聚类算法  41-44
    4.1.1 算法基本思想  42
    4.1.2 算法描述及分析  42-44
  4.2 加入搜索词的聚类改进算法  44-51
    4.2.1 改进的特征词权重计算方法  44-45
    4.2.2 改进的特征向量相似度计算方法  45-46
    4.2.3 加入搜索词的改进聚类中心确定算法  46-49
    4.2.4 改进算法分析及实验  49-51
  4.3 本章小结  51-52
第五章基于搜索词的中文Web聚类系统  52-62
  5.1 系统开发平台与开发环境  52
  5.2 系统总体结构及功能模块  52-54
  5.3 测试数据集  54-55
  5.4 系统运行方法及步骤  55-61
  5.5 本章小结  61-62
结论与展望  62-64
参考文献  64-67
攻读硕士学位期间取得的研究成果  67-68
致谢  68

基于搜索词的网页结果聚类研究与应用

内容摘要

全文目录

相似论文