学位论文 > 优秀研究生学位论文题录展示

聚类算法及在搜索引擎系统中的应用

作 者: 张晓伟
导 师: 刘润涛
学 校: 哈尔滨理工大学
专 业: 应用数学
关键词: 搜索引擎 聚类引擎 聚类算法 可视化
分类号: TP391.3
类 型: 硕士论文
年 份: 2014年
下 载: 37次
引 用: 0次
阅 读: 论文下载
 

内容摘要


搜索引擎作为海量信息的融合平台将万千世界带到人们的周围,使得大量信息都触手可得,与此同时也悄悄改变着人们的生活。搜索引擎分为全文索引、目录索引和元搜索引擎,而且其内部形式一直没有太大的变化。针对以上传统搜索引擎类型可读性差的状况,聚类引擎应运而生。聚类引擎是在搜索引擎中使用聚类技术,运用聚类算法对搜索结果进行自动聚类分析。其特点是去重性强、分类性强、汇集性强,即可以及时去除重复信息,对搜索的结果进行分门别类,又可以汇集各大知名搜索引擎的信息资源。本文针对聚类引擎进行了研究,用几种聚类算法对搜索引擎的搜索结果进行聚类处理,并返回聚类结果,最后对比这几种聚类算法效果,实验中借助Carrot2平台进行分析总结。具体完成的工作有如下几个部分:1.利用开源搜索引擎框架Nutch,搭建搜索引擎平台,并完成分词、分页等基本功能,为聚类引擎提供实验基础数据。2.将当前主流的K-Means聚类算法、STC聚类算法和Lingo聚类算法写入Nutch搜索引擎,形成相应算法下的聚类引擎,并逐一分析聚类结果效果。分析内容包括各个算法下生成的类目标签和对大小数据集的处理情况等。3.针对Lingo阈值的固定性,结合K-means算法距离提取的思想和Lingo算法对不同密度数据集可动态调节阈值的思想,将Lingo算法进行优化,在保证算法复杂度的情况下对不同数据密度的原数据返回更精确的聚类结果。4.利用Carrot2聚类可视化和F-measure聚类评测平台对本文中所有测试过程进行跟踪实验,更好的说明以上三种算法的聚类效果,以及优化后的Lingo算法的可靠性和有效性。

全文目录


相似论文

  1. K-均值聚类算法的研究与改进,TP311.13
  2. 小麦群体生长可视化系统的设计与实现,S512.1
  3. 基于模型的水稻根系可视化研究,S511
  4. 细菌聚类算法及其在图像分割问题中的研究与应用,TP391.41
  5. 基于变异粒子群的聚类算法研究,TP18
  6. K-means聚类优化算法的研究,TP311.13
  7. 融合粒子群和蛙跳算法的模糊C-均值聚类算法研究,TP18
  8. 基于遗传算法和粗糙集的聚类算法研究,TP18
  9. 基于模型的小麦根系可视化研究,S512.1
  10. 算法动画在高中算法教学中的应用研究,G633.6
  11. 网络搜索引擎的相关技术研究,G354
  12. SAR干涉像对优化选取方法研究,P225.2
  13. 机载激光雷达测量系统及点云数据快速处理技术,TN959.73
  14. 基于Lucene的网络文学垂直搜索引擎的研究与实现,TP391.3
  15. 井筒保护煤柱开采设计与变形监测及数据处理,TD822.3
  16. 基于Web的未登录词翻译技术研究,TP391.2
  17. 基于社会网络分析的藏文web链接结构研究,TP393.09
  18. 基于语义网络的智能搜索引擎研究,TP391.3
  19. 基于粒子群优化的Fuzzy c-mean聚类算法的基因芯片图像处理,TP391.41
  20. 基于BP网络的元搜索引擎研究,TP391.3
  21. 搜索引擎服务提供商版权侵权责任认定标准探讨,D923.41

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 检索机
© 2012 www.xueweilunwen.com