学位论文 > 优秀研究生学位论文题录展示

Kullback-Leibler距离检索框架下文摘在检索中的应用

作　者: 姜鹏
导　师: 王锋；李卫疆
学　校: 昆明理工大学
专　业: 计算机应用技术
关键词: 信息检索模型统计语言模型文摘文档扩展
分类号: TP391.3
类　型: 硕士论文
年　份: 2011年
下　载: 16次
引　用: 0次
阅　读: 论文下载

内容摘要

随着Internet技术的迅速发展,如何在浩如烟海的信息海洋中快速而准确的找到自己所需要的信息资源,是迫切需要解决的问题。目前,信息检索工具已经成为人们获得信息的不可或缺的工具。作为文本信息检索技术的数学技术,信息检索模型是对检索任务以及实现方法的一种逻辑抽象,这方面的研究有着重要的理论和使用价值。作为一种与自然语言处理工具,统计语言模型已经被证明具有良好的性能。而统计语言模型和信息检索相结合后所形成的检索模型的提出,是信息检索领域的重大进展。检索技术是人们获取所需信息的有效途径。作为自然语言处理技术的分支,自动摘要技术可以减轻用户的阅读压力,帮助他们提取主要的相关信息,该技术有利用信息的检索和再次处理,其信息简洁、清晰,是信息挖掘的有效手段。为了更好的满足用户的信息需求,研究人员将自动文摘和检索模型结合起来。本文主要研究了基于统计语言模型框架和文摘技术的信息检索模型。具体来讲,本文主要研究内容如下：1)本文简单介绍了信息检索的原理,并描述了经典信息检索模型,分析了统计语言模型以及相关的平滑方法。2)本文讨论了文摘的分类以及相应的文摘产生的方法,并分析了每种文摘产生方法的优缺点。由于需要一个鲁棒的文摘产生方法以应对信息检索过程中可能遇到的不同类型的文档,本文利用文档的表层特征信息,如词频、词在文档位置、词在句子中的位置等,来计算句子的权重,选择权重大的句子组成文摘。3)本文进一步研究了如何在语言模型框架下更好的利用文摘,提出了相应的检索模型,并与个别学者提出的模型进行比较。在TREC测试集合进行的实验表明,本文提出的模型显著超越了原有的简单语言模型,并与其他学者提出的模型性能相当甚至更好。4)查询扩展是查询反馈常用的手段,本文研究了K-L距离检索框架内如何利用文摘实现查询扩展,为查询扩展研究提供了一条可行思路。

全文目录

摘要  3-5
ABSTRACT  5-7
目录  7-9
第一章绪论  9-17
  1.1 研究背景  9-10
  1.2 本文相关研究综述  10-16
    1.2.1 信息检索及信息检索模型  10-12
    1.2.2 自动文摘  12-14
    1.2.3 文摘在检索中的应用  14-16
  1.3 本文主要工作内容和组织  16-17
第二章信息检索模型  17-33
  2.1 TREC测试集  17
  2.2 相关术语  17-19
    2.2.1 文档和文档集  17-18
    2.2.2 用户需求和查询  18
    2.2.3 相关性和相关度  18-19
  2.3 信息检索模型  19-28
    2.3.1 经典布尔模型  19
    2.3.2 向量空间模型  19-22
    2.3.3 概率模型  22-24
    2.3.4 统计语言模型  24-28
  2.4 检索性能的评价指标  28-30
    2.4.1 查准率和召回率  29-30
    2.4.2 未插值平均准确率和MAP  30
    2.4.3 Precision@X  30
  2.5 Lemur简介  30-31
  2.6 本章小结  31-33
第三章文摘的生成  33-41
  3.1 经典自动文摘的产生方法  33-36
    3.1.1 机械文摘  33-34
    3.1.2 理解文摘  34
    3.1.3 信息抽取  34-35
    3.1.4 基于结构的文摘  35-36
  3.2 本文采用的方法  36-38
    3.2.1 词频信息(Term Frequency Information)  37
    3.2.2 位置(Location)  37-38
    3.2.3 标题(Title)  38
    3.2.4 偏重查询因子(Query-biased Method)  38
  3.3 各个因素对检索的影响  38-40
  3.4 本章小结  40-41
第四章 K-L距离框架下基于文摘的文档扩展检索模型  41-51
  4.1 Kullback-Leibler距离检索框架  41-42
  4.2 基于文摘的文档扩展检索模型  42-46
  4.3 实验以及结果分析  46-50
    4.3.1 基本性能验证  46-48
    4.3.2 参数变化对检索性能的影响  48-50
  4.4 本章小结  50-51
第五章 K-L距离检索框架下基于文摘的查询反馈模型  51-57
  5.1 查询反馈基本原理  51-53
  5.2 混合生成模型的极大似然估计方法  53-54
  5.3 基于文摘的查询反馈检索模型  54-55
  5.4 实验以及结果分析  55-56
  5.5 本章小结  56-57
第六章总结与展望  57-59
致谢  59-61
参考文献  61-65
附录1 攻读硕士学位期间的完成的主要论文和工作  65

Kullback-Leibler距离检索框架下文摘在检索中的应用

内容摘要

全文目录

相似论文