学位论文 > 优秀研究生学位论文题录展示

Kullback-Leibler距离检索框架下文摘在检索中的应用

作 者: 姜鹏
导 师: 王锋;李卫疆
学 校: 昆明理工大学
专 业: 计算机应用技术
关键词: 信息检索模型 统计语言模型 文摘 文档扩展
分类号: TP391.3
类 型: 硕士论文
年 份: 2011年
下 载: 16次
引 用: 0次
阅 读: 论文下载
 

内容摘要


随着Internet技术的迅速发展,如何在浩如烟海的信息海洋中快速而准确的找到自己所需要的信息资源,是迫切需要解决的问题。目前,信息检索工具已经成为人们获得信息的不可或缺的工具。作为文本信息检索技术的数学技术,信息检索模型是对检索任务以及实现方法的一种逻辑抽象,这方面的研究有着重要的理论和使用价值。作为一种与自然语言处理工具,统计语言模型已经被证明具有良好的性能。而统计语言模型和信息检索相结合后所形成的检索模型的提出,是信息检索领域的重大进展。检索技术是人们获取所需信息的有效途径。作为自然语言处理技术的分支,自动摘要技术可以减轻用户的阅读压力,帮助他们提取主要的相关信息,该技术有利用信息的检索和再次处理,其信息简洁、清晰,是信息挖掘的有效手段。为了更好的满足用户的信息需求,研究人员将自动文摘和检索模型结合起来。本文主要研究了基于统计语言模型框架和文摘技术的信息检索模型。具体来讲,本文主要研究内容如下:1)本文简单介绍了信息检索的原理,并描述了经典信息检索模型,分析了统计语言模型以及相关的平滑方法。2)本文讨论了文摘的分类以及相应的文摘产生的方法,并分析了每种文摘产生方法的优缺点。由于需要一个鲁棒的文摘产生方法以应对信息检索过程中可能遇到的不同类型的文档,本文利用文档的表层特征信息,如词频、词在文档位置、词在句子中的位置等,来计算句子的权重,选择权重大的句子组成文摘。3)本文进一步研究了如何在语言模型框架下更好的利用文摘,提出了相应的检索模型,并与个别学者提出的模型进行比较。在TREC测试集合进行的实验表明,本文提出的模型显著超越了原有的简单语言模型,并与其他学者提出的模型性能相当甚至更好。4)查询扩展是查询反馈常用的手段,本文研究了K-L距离检索框架内如何利用文摘实现查询扩展,为查询扩展研究提供了一条可行思路。

全文目录


摘要  3-5
ABSTRACT  5-7
目录  7-9
第一章 绪论  9-17
  1.1 研究背景  9-10
  1.2 本文相关研究综述  10-16
    1.2.1 信息检索及信息检索模型  10-12
    1.2.2 自动文摘  12-14
    1.2.3 文摘在检索中的应用  14-16
  1.3 本文主要工作内容和组织  16-17
第二章 信息检索模型  17-33
  2.1 TREC测试集  17
  2.2 相关术语  17-19
    2.2.1 文档和文档集  17-18
    2.2.2 用户需求和查询  18
    2.2.3 相关性和相关度  18-19
  2.3 信息检索模型  19-28
    2.3.1 经典布尔模型  19
    2.3.2 向量空间模型  19-22
    2.3.3 概率模型  22-24
    2.3.4 统计语言模型  24-28
  2.4 检索性能的评价指标  28-30
    2.4.1 查准率和召回率  29-30
    2.4.2 未插值平均准确率和MAP  30
    2.4.3 Precision@X  30
  2.5 Lemur简介  30-31
  2.6 本章小结  31-33
第三章 文摘的生成  33-41
  3.1 经典自动文摘的产生方法  33-36
    3.1.1 机械文摘  33-34
    3.1.2 理解文摘  34
    3.1.3 信息抽取  34-35
    3.1.4 基于结构的文摘  35-36
  3.2 本文采用的方法  36-38
    3.2.1 词频信息(Term Frequency Information)  37
    3.2.2 位置(Location)  37-38
    3.2.3 标题(Title)  38
    3.2.4 偏重查询因子(Query-biased Method)  38
  3.3 各个因素对检索的影响  38-40
  3.4 本章小结  40-41
第四章 K-L距离框架下基于文摘的文档扩展检索模型  41-51
  4.1 Kullback-Leibler距离检索框架  41-42
  4.2 基于文摘的文档扩展检索模型  42-46
  4.3 实验以及结果分析  46-50
    4.3.1 基本性能验证  46-48
    4.3.2 参数变化对检索性能的影响  48-50
  4.4 本章小结  50-51
第五章 K-L距离检索框架下基于文摘的查询反馈模型  51-57
  5.1 查询反馈基本原理  51-53
  5.2 混合生成模型的极大似然估计方法  53-54
  5.3 基于文摘的查询反馈检索模型  54-55
  5.4 实验以及结果分析  55-56
  5.5 本章小结  56-57
第六章 总结与展望  57-59
致谢  59-61
参考文献  61-65
附录1 攻读硕士学位期间的完成的主要论文和工作  65

相似论文

  1. 多邮件自动文摘的关键技术研究,TP391.1
  2. 面向主题的Web文档自动文摘生成方法研究,TP391.1
  3. 基于话题的多文档文摘技术研究,TP391.1
  4. Web多文档自动文摘研究,TP391.1
  5. 基于主题划分的中文单文档自动文摘系统的研究,TP391.1
  6. 面向web文本挖掘的中文文本自动摘要关键技术研究,TP391.1
  7. 面向事件的多文档自动文摘研究,TP391.1
  8. 中文自动文摘关键技术的研究与实现,TP391.1
  9. 基于改进的模糊C均值聚类算法的多文档自动文摘,TP391.1
  10. 基于S2AFCM与篇章内容结构分析的自动文摘系统研究,TP311.52
  11. 基于主题模型的中英文多文档自动文摘,TP391.1
  12. 基于统计的多文档关键短语和文摘抽取研究,TP391.1
  13. 国内医学文摘系列刊物发展对策研究,R-5
  14. 网络舆情文摘生成技术中相似度与聚类的研究,TP393.09
  15. 基于PLSI的信息检索中查询扩展相关技术研究,TP391.3
  16. 武警部队舆情监测系统设计和实现,TP393.09
  17. 基于向量空间模型的web文本自动摘要系统的研究,TP391.1
  18. 互联网文本自动文摘技术的研究,TP391.1
  19. 生物医学多文档自动文摘系统设计与实现,TP391.1
  20. 面向盲人的图片自动描述系统的研究与实现,TP393.092

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 检索机
© 2012 www.xueweilunwen.com