学位论文 > 优秀研究生学位论文题录展示
搜索引擎返回结果聚类技术的研究与实现
作 者: 陈菊红
导 师: 金炜东
学 校: 西南交通大学
专 业: 计算机应用技术
关键词: 文本聚类 TF-IDF 词性标注 Nutch 聚类系统
分类号: TP391.3
类 型: 硕士论文
年 份: 2009年
下 载: 234次
引 用: 8次
阅 读: 论文下载
内容摘要
随着因特网技术的飞速发展和搜索引擎技术的日趋成熟,人们逐渐开始频繁利用网络来获取所需的资源,而现有的搜索引擎返回的查询结果数量庞大且呈线性排列,用户很难在较短的时间内找到有用的信息,因此如何能够快捷、准确地发现信息则成为目前信息检索领域亟待解决的问题。文本聚类具有较强的灵活性和自动处理能力,已经逐渐成为对搜索引擎进行有效地组织和导航的重要手段。本文就文本聚类算法进行了深入的研究,采用Lingo聚类算法作为主要框架,探索和研究文本聚类在搜索引擎领域内的应用,主要研究工作如下:文本预处理的许多关键技术直接影响聚类的效果,因此本文对文本聚类预处理中涉及的关键技术做了深入的研究,在此基础上设计和实现了包含网页去噪、词干提取、停止词过滤等功能的预处理子系统。TF-IDF(Term Frequency Inverse-Document Frequency)是向量空间模型中最常用的权重计算方法,它可以有效地强化在文档中出现的高频词汇的权重,弱化在文档集合中出现频率较高但是包含文档信息量少的常用词的权重。但是,事实上词对文档的重要程度还与词的词性以及词在文档中的位置因素有关,因此本文在传统的TF-IDF的基础上加入词性权重与位置权重对其进行修正,实验证明改进后的TF-IDF可以更加准确的描述词对文档的重要程度,有效地提高了聚类算法的查准率和查全率,使算法的整体性能有了较大的提高。本文对Lingo聚类算法做了深入的研究和分析,通过对比实验证明它比目前流行的后缀树算法(STC)聚类的性能更优,提取出的类标签更能反映类别信息,易于理解。但是它产生的聚类没有层次性,不能很好的反映类别之间的包含关系。因此本文在Lingo的基础上引入HSTC(层次的后缀树聚类算法)中层次组织的方法对Lingo的聚类结果进行层次组织。实验证明改进后的层次的Lingo聚类算法(HLingo)能够较好的表现类别之间的层次关系,提取出的类标签也能充分的反应类别信息,克服了类合并时出现的类标签提取过长的问题,而且通过引入双阈值来调整包含关系,有效地克服了HSTC中类合并频繁的问题。无论是在测试集数据比较单一还是比较复杂的情况下都能获得较好的聚类效果,比HSTC具有更好稳定性。通常情况下对词进行词性标注时必须要考虑词的上下文环境,因此如果将词性标注技术引入搜索引擎结果聚类系统则意味着对搜索搜索引擎返回的结果必须在线进行标注,但由于词性标注算法的实现往往比较复杂,算法的时间复杂度较高,这对搜索引擎结果聚类系统的运行效率影响很大。本文对词性标注技术做了较为深入的研究,考虑到将词性标注引入聚类系统带来的巨大的系统开销,设计和实现了一个基于XML的词性词典,只有第一次被检索到的文档才进行词性标注并更新词典,否则直接在词典中查询即可得到词的词性信息,通过这种方式有效地避免了对相同文档地重复标注,从而减少了系统不必要的开销。最后结合以上几个方面的研究,设计和实现了一个聚类系统HappyDonkey,并将开源的搜索引擎Nutch集成到本系统中,实现了一个既可以对Yahoo搜索引擎返回的结果进行聚类,又可以就本系统的查询结果进行聚类,对外开放查询接口的多功能的聚类系统。实验证明,本文所研究的内容,有利于聚类算法性能的改进,达到了一定的预期效果。
|
全文目录
摘要 6-8 Abstract 8-12 第1章 绪论 12-16 1.1 课题研究的背景及意义 12-13 1.2 国内外研究现状 13-14 1.3 本文的工作与安排 14-16 第2章 搜索引擎结果聚类概述 16-25 2.1 搜索引擎结果聚类的定义和优势 16 2.2 搜索引擎结果聚类的过程 16-17 2.3 搜索结果聚类的关键技术 17-24 2.3.1 获取搜索引擎返回的结果 17 2.3.2 文本预处理 17-18 2.3.3 文本表示模型 18-19 2.3.4 文本聚类算法 19-21 2.3.5 性能评价 21-24 2.4 本章小结 24-25 第3章 特征提取与文本权重的分析 25-32 3.1 特征提取 25-26 3.2 TF-IDF文本权重的分析 26-31 3.2.1 TF-IDF权重计算法 26-27 3.2.2 TF-IDF的整合思想 27-31 3.3 本章小结 31-32 第4章 Lingo聚类算法分析及改进策略 32-45 4.1 文本聚类在搜索引擎中的应用特点 32 4.2 Lingo聚类算法的介绍 32-38 4.2.1 Lingo算法分析 33-34 4.2.2 实验与比较 34-38 4.3 Lingo聚类算法的改进 38-44 4.3.1 问题的提出 38 4.3.2 Lingo权重的改进 38 4.3.3 Lingo聚类结果的层次化组织 38-40 4.3.4 类标签合并策略的改进 40-43 4.3.5 算法改进中遇到的问题及解决方案 43-44 4.4 本章小结 44-45 第5章 HappyDonkey聚类系统的设计与实现 45-61 5.1 HappyDonkey聚类系统的分类模块介绍 45 5.2 获取搜索结果 45-51 5.2.1 Nutch搜索引擎的介绍 45-46 5.2.2 安装和配置Nutch 46-48 5.2.3 获取搜索结果 48-51 5.3 预处理模块 51-52 5.4 词性标注 52-57 5.4.1 对数线性词性标注器 52-55 5.4.2 基于 XML的词性词典的设计与实现 55-57 5.5 特征提取 57 5.6 聚类模块 57 5.7 查询接口的设计与实现 57-59 5.8 运行效果 59-60 5.9 本章小结 60-61 第6章 实验结果与分析 61-68 6.1 测试环境说明 61 6.2 测试实验设置和结果 61-67 6.3 本章小结 67-68 总结与展望 68-70 致谢 70-71 参考文献 71-76 攻读硕士学位期间的发表的论文 76
|
相似论文
- 隐式用户兴趣挖掘的研究与实现,TP311.13
- 演化聚类算法及其应用研究,TP311.13
- 基于本体的食品投诉文档文本聚类研究,TP391.1
- 面向短消息文本的聚类技术研究与应用,TP391.1
- 教育新闻热点话题发现系统的设计与实现,TP391.1
- 《汉语水平词汇等级大纲》甲级词汇词性标注研究,H146
- 基于Nutch的企业搜索引擎的研究与实现,TP391.3
- 主题搜索引擎关键技术研究,TP391.3
- Web新闻热点发现系统的设计与实现,TP393.09
- 面向海量数据的云存储系统实现与应用研究,TP333
- 面向学科的文献资源聚类系统研究及应用,TP391.1
- 基于统计NLP技术的甲骨卜辞的分析研究,TP391.1
- SOM算法的改进及其在中文文本聚类的应用,TP391.1
- 基于Web文本挖掘的网络口碑监测系统研究,TP391.1
- Web中文文本聚类研究,TP391.1
- 基于HMM的藏语语料库词性自动标注研究,H214
- LSA与SOM相结合的文本聚类算法应用研究,TP391.1
- 基于PageRank值的文本相似度改进模型,TP391.1
- 基于改进TF-IDF的文本信息热点话题发现,TP391.1
- 汉语词类划分与词性标注方法的研究,TP391.1
- 汉英机器翻译中趋向动词的处理,H315.9
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 检索机
© 2012 www.xueweilunwen.com
|