学位论文 > 优秀研究生学位论文题录展示

搜索引擎检索功能的性能评价研究

作 者: 费巍
导 师: 彭斐章;张进
学 校: 武汉大学
专 业: 图书馆学
关键词: 搜索引擎 信息检索 评价 相关性 排序 优化
分类号: TP391.3
类 型: 博士论文
年 份: 2010年
下 载: 1823次
引 用: 4次
阅 读: 论文下载
 

内容摘要


搜索引擎评价研究是信息检索领域研究的热点之一,网络信息和信息检索技术的发展推动了搜索引擎实践的发展。为了满足用户日益增长的信息需求,搜索引擎除了完善其简单检索功能外,也不断开发高级检索功能。这些检索功能旨在帮助用户获取高质量的网络信息,但它们的检索性能并不为人所知。本文以搜索引擎检索结果的相关性排序质量为两个核心评价指标,对当前主流搜索引擎的主要检索功能进行了评价。本研究的成果一方面可以帮助用户在利用搜索引擎进行信息检索时选取恰当的检索策略,另一方面则可以知道不同的检索功能对搜索引擎检索性能的影响。在第一章中,笔者论述了近年来搜索引擎及其评价研究的现状。在大量文献的基础上,对研究内容、方法、特点、不足以及发展趋势进行了总结。目前搜索引擎评价研究主要以相关性研究为核心内容,以实验方法、调查方法、数据分析法、观察法、综述和评论等为主要的研究方法,具有依附性、动态性、多样化、重视用户参与等特点。然而搜索引擎评价研究还有所不足,主要在于缺乏不同检索功能之间检索效率的比较以及检索结果排序质量的评价等方面。随着多媒体信息的发展,对搜索引擎多媒体检索功能的评价必将成为今后研究的热点。在第二章中,笔者指出,相关性是搜索引擎评价的基础指标,并由此衍生出检索结果的排序质量这一指标,相关性根据网页的形式和内容进行评判,结果排序的质量由检索结果的排列次序和排序的稳定性决定。围绕这两个核心指标,笔者构建了一套评价体系,并根据一定的标准选取了5个中英文搜索引擎以及5种检索功能作为研究对象。英文搜索引擎为Google、Yahoo和MSN/Live/Bing,中文搜索引擎为百度和谷歌,5种检索功能分别为题名检索、短语检索、PDF检索、URL检索和普通检索,其中以普通检索作为比较分析的基准。在第三章中,笔者对所研究的内容提出了假设,并设计了实验步骤。应用层次分析法对相关性的评价指标进行了分析,从一系列的指标中选取了检索结果的全文、摘要、题名、网页有效性、用户负担和网页长度等核心指标来衡量网页的相关性,并对检索结果相关性的计算方法进行了修正,用修正的相关性计算公式来衡量每一检索功能检索结果的整体相关性。方差分析法用于比较分析搜索引擎各检索功能之间的检索效率是否具有显著性差异。如果存在显著性差异,Tukey多重比较检验法则会用于探究造成这一差异的原因。同时,通过回归分析法评价检索结果排序的次序和稳定性。在第四章中,基于50,000份数据,笔者应用了方差分析法对5个搜索引擎的5种检索功能进行了评价,结果显示各检索功能之间的检索效率存在显著性差异,Tukey多重比较检验法探明了造成这一差异的原因。在各检索功能中,PDF检索的效率最高,其余依次为题名检索、普通检索、短语检索和URL检索。在各检索功能的稳定性测评中,普通检索的稳定性要优于其他检索功能。英文搜索引擎中,Yahoo!在5种检索功能中的检索效率均高于Google和MSN/Live/Bing,其次为Google, MSN/Live/Bing的检索效率最差。中文搜索引擎中,谷歌题名检索、普通检索、PDF检索和URL检索的检索效率要明显优于百度,短语检索两者并无显著区别。在第五章中,笔者利用回归分析法的曲线估计方法比较分析了5个搜索引擎的5种检索功能的结果排序质量。英文搜索引擎中,普通检索的结果排序质量最好,URL检索最差,中文搜索引擎中,URL检索的结果排序质量最差,百度的PDF检索结果排序质量最好,谷歌的题名检索结果排序质量最好。数据显示,中文搜索引擎检索结果的排序质量与英文搜索引擎相比具有较大的差距。在第六章中,笔者指出,在数据收集和分析的过程中,发现中英文搜索引擎无论在检索效率还是在检索结果排序上,都存在较大的差距。针对中文搜索引擎目前存在的问题,笔者提出了相应的优化策略,不仅要加强中文网页的质量建设,还要推动开放存取的发展,这样可以从源头上提升中文网络资源质量。搜索引擎应该具备强有力的信息过滤能力,同时谨慎采用一些商业行为人为干扰检索结果的排序。

全文目录


摘要  4-6
Abstract  6-12
1 绪论  12-60
  1.1 选题意义  12-13
  1.2 搜索引擎研究文献  13-24
    1.2.1 搜索引擎研究的著作  13-15
    1.2.2 搜索引擎研究的论文  15-22
    1.2.3 搜索引擎研究的会议  22-23
    1.2.4 搜索引擎研究的科研项目  23-24
  1.3 搜索引擎评价研究现状  24-58
    1.3.1 搜索引擎评价研究的内容  24-35
    1.3.2 搜索引擎评价的研究方法  35-43
    1.3.3 搜索引擎评价指标体系及测试集  43-54
    1.3.4 搜索引擎评价研究的特点  54-57
    1.3.5 搜索引擎评价研究的不足  57
    1.3.6 搜索引擎评价研究的发展趋势  57-58
  1.4 研究方法和研究工具  58-59
  1.5 主要创新点  59-60
2 基于相关性的搜索引擎检索功能评价体系  60-85
  2.1 搜索引擎的选取  60-66
    2.1.1 搜索引擎市场的变化  60-61
    2.1.2 搜索引擎的选取  61-66
  2.2 检索功能的选取  66-71
  2.3 检索式的选取  71-77
    2.3.1 检索式的构成  71-74
    2.3.2 检索式的选取方式  74-75
    2.3.3 检索式的确立  75-77
  2.4 相关性的评价指标  77-82
    2.4.1 网页的形式  77-80
    2.4.2 网页的内容  80-82
  2.5 检索结果排序的评价指标  82-85
    2.5.1 排列次序  82-83
    2.5.2 排序的稳定性  83-85
3 搜索引擎检索功能性能的评价方法  85-98
  3.1 假设的提出  85
  3.2 相关性的评价方法  85-94
    3.2.1 检索式的描述  86-88
    3.2.2 相关性的表示方法  88-89
    3.2.3 相关性的计算方法  89-90
    3.2.4 数据采集方法  90-94
    3.2.5 数据分析方法  94
  3.3 检索结果排序的评价方法  94-98
4 搜索引擎检索功能的检索效率评价  98-137
  4.1 Google检索功能的检索效率评价  98-103
  4.2 Yahoo!检索功能的检索效率评价  103-107
  4.3 MSN/Live/Bing检索功能的检索效率评价  107-111
  4.4 百度检索功能的检索效率评价  111-115
  4.5 谷歌检索功能的检索效率评价  115-120
  4.6 中英文搜索引擎检索效率比较分析  120-137
    4.6.1 搜索引擎的题名检索效率  120-123
    4.6.2 搜索引擎普通检索效率  123-126
    4.6.3 搜索引擎短语检索效率  126-129
    4.6.4 搜索引擎PDF检索效率  129-132
    4.6.5 搜索引擎URL检索效率  132-137
5 搜索引擎检索功能的检索结果排序评价  137-155
  5.1 Google检索结果排序评价  137-140
  5.2 Yahoo!检索结果排序评价  140-143
  5.3 MSN/Live/Bing检索结果排序评价  143-147
  5.4 百度检索结果排序评价  147-150
  5.5 谷歌检索结果排序评价  150-154
  5.6 中英文搜索引擎检索结果排序质量比较  154-155
    5.6.1 英文搜索引擎的检索结果排序质量比较  154
    5.6.2 中文搜索引擎的检索结果排序质量比较  154-155
6 基于实证的中文搜索引擎优化策略  155-160
  6.1 Web2.0对搜索引擎的影响  155
  6.2 搜索引擎评价中发现的问题  155-157
  6.3 中文搜索引擎优化对策  157-160
参考文献  160-171
读博期间参与的科研课题及发表的论文  171-172
致谢  172-174

相似论文

  1. 超声波钎焊填缝及钎缝优化工艺研究,TG454
  2. 曲拉精制干酪素褐变因素及工艺优化研究,TS252.5
  3. 压气机优化平台建立与跨音速压气机气动优化设计,TH45
  4. 常温低温组合密封结构的有限元分析与优化设计,TH136
  5. 涡轮S2流面正问题气动优化设计研究,V235.11
  6. 光纤陀螺温度漂移建模与补偿,V241.5
  7. 基于蚁群算法的电梯群优化控制研究,TU857
  8. 中心回燃式燃烧室燃烧特性研究,TK223.21
  9. 内置式高效永磁同步电机的设计研究,TM341
  10. 内点法在大型电力系统无功优化中的应用研究,TM714.3
  11. 轴向磁通感应子式高温超导电机的基础研究,TM37
  12. 基础教育改革中过程性评价平台的构建与完善,G521
  13. 基于信息熵的课堂观察量化评价模型研究,G632.4
  14. 高中信息技术新课程评价方法的实施研究,G633.67
  15. AVS视频解码器在PC平台上的优化及场解码的改善,TN919.81
  16. 多重ANN/HMM混合模型在语音识别中的应用,TN912.34
  17. AES算法及其DSP实现,TN918.1
  18. 极化SAR图像超分辨算法的研究,TN957.52
  19. 多层卫星网络稳定性设计研究,TN927.23
  20. 电视制导系统中视频图像压缩优化设计及实现研究,TN919.81
  21. 海量多数据库集成系统的查询处理研究,TP311.13

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 检索机
© 2012 www.xueweilunwen.com