学位论文 > 优秀研究生学位论文题录展示

熵的思想在搜索引擎质量评价中的应用

作 者: 王东涵
导 师: 陈昊鹏;王东锐
学 校: 上海交通大学
专 业: 软件工程
关键词: 搜索引擎 负反馈 信息熵 点击分布 点击事件 点击熵
分类号: TP391.3
类 型: 硕士论文
年 份: 2012年
下 载: 34次
引 用: 0次
阅 读: 论文下载
 

内容摘要


搜索引擎是最近几年互联网领域的热门话题。搜索引擎质量评价可以追溯到20世纪50年代Kent提出查全率和查准率的信息检索评价框架和其后英国Cranfield工程基于此建立的测评方案。搜索引擎发展到今天,基于语义分析的第三代已经成熟,基于个性搜索和社交网络第四代也崭露头角。但搜索引擎的质量评价体系在过去的几十年间并没有质的变化。本文对搜索引擎的技术及其质量评价体系做了全面的研究和回顾后,总结了现有评价体系在实际应用中的问题:第一,手工劳动量大、代价高昂和拓展性差而不能有效指导搜索引擎质量改进;第二,查询样例集合的代表性由于集合规模有限而难以控制;第三,各搜索引擎对现有评价体系有针对性的进行改进,其效果已出现边际效益递减定律所描述的情况,改进越来越难,收效越来越小,例如基于相关性的改进。通过对这一领域文献的广泛阅读和对搜索引擎质量评价体系的思考,本文提出了一套从负反馈思想出发,把熵的概念应用于点击信息分析,量化DSAT(Dissatisfaction)对于搜索引擎质量影响程度的方法,并以实验结果证明了这种方法是对搜索引擎质量评价体系的有效补充。在研究过程中,本文创新性的对DSAT进行了mDSAT和1DSAT的分类,以实现对它们不同的特性加以有效处理。因为本方法是基于点击日志实现DSAT自动挖掘和基于点击熵值实现DSAT重要性自动排序,避免了前述的第一个问题;而点击日志是所有点击信息的集合,理论上本方法的样本集合是基于所有用户的查询关键词,大大减少了前述的第二个问题对搜索引擎质量评价的影响;本方法是从一个新的角度(DSAT自动挖掘和重要性排序)对现有评价体系进行补充,应该在一定时期内有效帮助搜索引擎质量改进,而对本方法任何有针对性的措施都是直接对搜索引擎质量的改进,从而缓解了前述的第三个问题。本方法的创新之处在于把信息熵的概念应用于点击日志中点击信息的分析,通过拓展点击分布的概念,提出点击事件和点击熵的定义和计算公式,提出了一种新颖而实用的解释点击信息的方法,从而量化DSAT对于搜索引擎质量的重要性;在此过程中,通过对实际用户点击日志的分析和实验,解决了对低点击量和无点击量的搜索结果对本方法的不适应的问题;最终实现了基于点击日志对DSAT的自动挖掘;然后,本文提出以控制科学的负反馈思想为切入点,把DSAT(dissatisfaction)作为搜索引擎系统的负反馈输入,达到直接有效的帮助搜索引擎改进质量的目的。基于上述思想,本文提出了一套框架系统来实现点击熵的自动和实时的计算并由此实现了DSAT在实时和批量模式下的自动挖掘。本文详细叙述了该框架系统的需求说明、概要设计和详细设计,并给出了点击日志点击信息的数据流程图,详细解释了Query/URL的聚合过程。然后讨论了该框架系统的具体实现,并对其索引生成器和实时报表的亮点部分进行了详细解释。为了让点击熵的结果具有可比性和易读性,本文提出了对点击熵进行正规化的方法,从而达到对于DSAT重要性进行自动排序的目的。最后,本文通过测试和实验,证明了在该框架实现的基础上,负反馈和信息熵思想的这种在搜索引擎上的应用的有效性和其对于搜索引擎的有效改进。

全文目录


相似论文

  1. 基于信息熵的课堂观察量化评价模型研究,G632.4
  2. 网络搜索引擎的相关技术研究,G354
  3. 基于社会网络分析的藏文web链接结构研究,TP393.09
  4. 基于Struts2框架的安全教育管理信息系统研究,TP311.52
  5. 基于GA的Ad Hoc网络多播QoS路由算法研究,TN929.5
  6. 移动互联网环境下无线垂直搜索引擎的研究与实现,TP391.3
  7. 30MHz~512MHz宽带功放设计,TN722.75
  8. 智能太阳电池测试系统设计,TM914.4
  9. 激光共焦荧光显微内窥镜的自适应成像技术研究,TP391.41
  10. 人类细胞周期及凋亡网络的模型建立与模拟分析研究,R329
  11. 超短波低噪声放大器的设计,TN722.3
  12. 宽带增益可控差分CMOS低噪声放大器设计与分析,TN722.3
  13. 建设用地需求量预测和城市空间扩展研究,TU984.113
  14. 胞内DNA感受器DAI在慢性鼻—鼻窦炎及鼻息肉发病机制中作用的研究,R765
  15. 基于Lucene的主题搜索引擎研究,TP391.3
  16. 基于语义网络的智能搜索引擎研究,TP391.3
  17. 垂直搜索引擎的研究与实现,TP391.3
  18. 搜索引擎中网络爬虫技术研究,TP391.3
  19. 基于深度网页爬虫搜索引擎原型的研究和实现,TP391.3
  20. 基于垂直搜索引擎的主题爬虫算法的研究,TP391.3

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 检索机
© 2012 www.xueweilunwen.com