学位论文 > 优秀研究生学位论文题录展示

提高信息检索性能的有效机制与算法研究

作 者: 杨哲
导 师: 程学旗
学 校: 中国科学院研究生院(计算技术研究所)
专 业: 计算机软件理论
关键词: 信息检索 WEB检索 伪相关反馈 互信息
分类号: TP391.3
类 型: 硕士论文
年 份: 2004年
下 载: 236次
引 用: 6次
阅 读: 论文下载
 

内容摘要


随着互联网的飞速发展,以电子形式存在的信息大量增长,在给用户带来更多可获取的信息的同时,也给用户获取这些信息增加了难度。如果没有合理的信息检索手段,人们很难充分利用这些信息。信息检索技术可以帮助人们从大规模的文本数据中获取所需要的信息。而WEB信息检索又同传统的信息检索不同,WEB的呈现方式与普通文本有区别,同时WEB还有自身的拓扑结构。在参加文本检索会议(TREC)的过程中,我们对如何利用这些WEB的特性来对传统的信息检索技术进行改造进行了研究,并取得了一定的成果。由于在自然语言理解上尚无法取得突破,计算机还仅能从用户提交查询中关键词的有无来判断是否相关,检索系统不能智能的判断文档的相关性,使得用户构造查询的难度也大大增加。反馈可以帮助系统对用户的查询进行改造,目的是更精确的描述用户的需求。伪相关反馈是指无需用户参与的一种反馈方法。伪相关反馈实际上是一种统计方法,利用它可以自动调整查询计算模型的参数,也可以对查询特征进行更精确的扩展。我们首先通过对影响反馈性能因素的研究,得到稳定的参数调整方法,并提出了一种动态调整反馈参数的构想。同时,用户的查询输入是需求的简单表述,我们利用互信息作为查询扩展时特征选择的依据之一,降低反馈后查询的不确定性,从而达到提高反馈性能的目的。这种方法在TREC2002主题提取子任务中取得了不错的效果,跟传统的反馈算法相比有较大的提高。

全文目录


摘要  4-5
Abstract  5-8
第一章 引言  8-11
  1.1 信息检索的现状  8
  1.2 WEB信息特点及融合多元特征的WEB信息检索  8-9
  1.3 用反馈提高信息检索的性能  9
  1.4 本文的组织  9-11
第二章 信息检索概述  11-22
  2.1 基本定义  11-12
  2.2 评价方法  12-14
    2.2.1 准确率和召回率  12-13
    2.2.2 准确率和召回率变化图  13
    2.2.3 平均准确率  13
    2.2.4 相关文档对应的平均准确率  13-14
    2.2.5 R-准确率  14
  2.3 布尔检索模型  14
  2.4 向量空间模型  14-19
    2.4.1 用向量表示文档  15
    2.4.2 词的权重  15-16
    2.4.3 查询的向量化表示  16
    2.4.4 权重的规格化  16-18
    2.4.5 相似度计算  18-19
  2.5 概率检索模型  19-22
第三章 综合利用多元特征的更精确WEB 信息检索  22-33
  3.1 WEB信息检索简介  22-23
  3.2 TREC 简介  23-24
  3.3 基于文本内容的检索  24
  3.4 命名网页发现/主页发现子任务  24-29
  3.5 主题提取子任务  29-31
  3.6 本章小结  31-33
第四章 伪相关反馈应用参数稳定性分析与检索性能的改进  33-44
  4.1 伪相关反馈简介  33-36
    4.1.1 向量空间模型中的反馈方法  34-35
    4.1.2 概率模型中的反馈  35
    4.1.3 伪相关反馈方法的缺陷  35-36
  4.2 扩展规模对伪相关反馈的影响  36-39
  4.3 默认的相关文档数量对反馈性能的影响  39-40
  4.4 扩展索引词权重加权参数对反馈性能的影响  40-42
  4.5 动态调整反馈参数的设想  42-44
第五章 基于互信息的伪相关反馈与查询扩展  44-49
  5.1 改进伪相关反馈技术的研究  44-45
  5.2 在反馈中引入互信息  45-46
  5.3 利用互信息进行伪相关反馈的实验  46-48
  5.4 本章小结  48-49
第六章 总结与展望  49-51
参考文献  51-56
致谢  56-57
作者简介  57

相似论文

  1. 词义消歧语料库自动获取方法研究,TP391.1
  2. 生物医学领域检索系统查询扩展技术研究,TP391.3
  3. 面向海量邮件的检索系统研究与实现,TP393.098
  4. 基于跨语言信息检索的企业竞争情报收集系统模型研究,TP391.3
  5. 非刚性医学图像准算法研究和实现,TP391.41
  6. 基于策略Agent的个性化信息检索系统的研究与实现,TP391.3
  7. 英汉跨语言问答系统中的文档语义检索,TP391.1
  8. 基于聚类分析的搜索引擎自动性能评价研究,TP391.3
  9. 基于用户兴趣模型的个性化搜索引擎研究与分析,TP391.3
  10. 本体在医疗信息检索系统中的应用研究,TP391.3
  11. 文本分类算法的研究与改进,TP391.1
  12. 基于意义理解的问答系统设计与实现,TP311.52
  13. 小型中文信息检索测试集的构建与分析,TP391.3
  14. 基于CT/MRI图像配准算法的设计与实现,TP391.41
  15. 基于R树的空间—文本混合索引方法,P208
  16. 基于小波变换的医学图像增强和配准技术研究,O174.22
  17. 基于本体的知识表示及信息检索研究,G354.4
  18. 基于社交信息的网络视频分类,TP391.41
  19. 非刚体的医学图像配准技术研究,TP391.41
  20. 基于本体的语义检索原型系统的设计与实现,TP391.3
  21. 基于本体的语义检索模型的研究,TP391.3

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 检索机
© 2012 www.xueweilunwen.com