学位论文 > 优秀研究生学位论文题录展示

基于网页聚类的搜索引擎结果排序

作 者: 孙珊珊
导 师: 索红光;梁玉环
学 校: 中国石油大学
专 业: 计算机科学与技术
关键词: 搜索引擎 文本聚类 个性化排序 用户兴趣模型
分类号: TP391.3
类 型: 硕士论文
年 份: 2010年
下 载: 186次
引 用: 2次
阅 读: 论文下载
 

内容摘要


随着Web资源的不断丰富,更多的用户试图通过搜索引擎查询信息。然而,用户在体验信息检索系统带来的方便之时,也体会到了信息获取的困难。一方面,目前的搜索引擎主要基于与查询内容的字形匹配返回大量检索结果,由于查询内容具有广泛的语义,因此在返回的结果列表中存在主题混杂现象,用户在检索过程中必须不断对结果进行筛选,耗费了大量时间。另一方面,用户得到的检索结果不具个性化。针对上述问题,本文提出了基于网页聚类的搜索引擎结果排序。首先,为了解决搜索引擎返回结果中的主题混杂现象,帮助用户快速准确地定位到有价值的信息,本文将文本聚类应用到搜索结果处理中,提出基于主题短语的搜索引擎结果聚类方法。在对返回结果的特征提取中,提出一种新的特征提取方式,特征向量由查询关键词构成的主题短语和高频独立词组成。同时引入同义词词林对特征项进行语义扩充,最后采用改进的k-means聚类算法对搜索结果进行聚类,并为各个类别提取类别标签。其次,针对用户检索的个性化问题,本文提出了基于用户兴趣和网页聚类的搜索结果排序。通过挖掘用户兴趣,建立兴趣模型,根据用户的兴趣对聚类结果进行类别排序,同时基于用户兴趣模型对类别标签进行扩展,对用户感兴趣的类别内网页综合多个指标进行顺序微调。最后,根据算法思想进行了实验测试,并对实验数据进行了分析。实验结果表明,基于主题短语的搜索引擎结果聚类算法能有效提高聚类结果的查准率,聚类类别实现了对查询主题的细化。基于用户兴趣的排序提高了用户准确获取信息的效率。同时该系统也存在着很多不足之处,有待于进一步的改进。

全文目录


相似论文

  1. 隐式用户兴趣挖掘的研究与实现,TP311.13
  2. 演化聚类算法及其应用研究,TP311.13
  3. 网络搜索引擎的相关技术研究,G354
  4. 基于语义网络的智能搜索引擎研究,TP391.3
  5. 基于本体的食品投诉文档文本聚类研究,TP391.1
  6. 搜索引擎服务提供商版权侵权责任认定标准探讨,D923.41
  7. 基于Web搜索和网页结构分析的IT相关主题新闻抓取研究,TP393.092
  8. 面向短消息文本的聚类技术研究与应用,TP391.1
  9. 教育新闻热点话题发现系统的设计与实现,TP391.1
  10. 基于策略Agent的个性化信息检索系统的研究与实现,TP391.3
  11. 分布式搜索引擎索引安全及缓存策略研究,TP333
  12. 基于WebHarvest的中文财经新闻搜索引擎的设计与实现,TP311.52
  13. Web新闻热点发现系统的设计与实现,TP393.09
  14. 个性化医疗信息推荐系统的研究与实现,R319
  15. 教育培训行业互联网营销问题的研究,F49
  16. 搜索引擎侵权行为研究,D923
  17. 基于Web数据挖掘的个性化搜索引擎研究,TP391.3
  18. 基于Agent元搜索引擎的个性化研究,TP391.3
  19. 面向海量数据的云存储系统实现与应用研究,TP333
  20. 论搜索引擎竞价排名的法律规制,D923.43
  21. 搜索引擎悖论解读,G254

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 检索机
© 2012 www.xueweilunwen.com