学位论文 > 优秀研究生学位论文题录展示
基于统计语言建模的信息检索及相关研究
作 者: 丁国栋
导 师: 白硕
学 校: 中国科学院研究生院(计算技术研究所)
专 业: 计算机软件与理论
关键词: 信息检索 统计语言模型 查询似然检索模型 平滑 GJM-2 查询扩展 LOCOOC KL距离检索模型 词项联想网络 联想式扩展
分类号: TP391.3
类 型: 博士论文
年 份: 2006年
下 载: 826次
引 用: 9次
阅 读: 论文下载
内容摘要
本文对基于统计语言建模(SLM, Statistical Language Modeling)的信息检索方法进行了较为详细的论述,着重阐述了查询似然检索模型的基本思想和原理,并介绍了一些改进的模型,如KL距离检索模型等。在这一基础上,针对SLM检索方法中文档建模和查询建模这两个关键问题,本文就文档语言模型的平滑估计、启发式查询扩展及其在查询似然检索模型中的整合以及查询语言模型的估计和联想式扩展等几个方面作了较为深入的研究。针对查询似然检索模型中文档一元语言模型的平滑估计问题,本文详细地分析了几种常用的平滑方法对检索性能的影响模式和平滑参数的最优取值规律,探讨了平滑在查询似然检索模型中所扮演的功能角色,提出了一种改进的线性插值平滑方法GJM-2,利用文档中不同词项的个数这一统计信息来改善平滑的效果。考虑到传统的平滑方法在进行平滑处理时对不同词项的差异性有所忽视,本文还提出了基于词项风险的平滑模型,将词项风险引入传统的平滑方法。实验结果表明,与传统的平滑方法相比,GJM-2平滑方法和基于词项风险的平滑模型均能有效地提高检索性能。在信息检索中,启发式查询扩展是改善检索性能的重要技术手段。我们研究了在查询似然检索模型中如何进行启发式查询扩展的问题。针对查询似然检索模型在实现查询扩展上存在的先天不足,我们通过引入查询词的权重信息对查询似然检索模型进行了改进,提出了WQL检索模型,从而可以将传统的各种启发式查询扩展方法很自然地整合进来,实验结果验证了整合的有效性。此外,通过对传统扩展方法的分析,本文还提出了一种基于局部共现的查询扩展方法LOCOOC,利用候选词与初始查询在局部文档集合中的共现程度来评估候选词的质量,并整合了候选词在文档集中的全局统计信息,使得选取的扩展词与初始查询所表征的主题或概念具有更好的相关性。实验结果表明:基于WQL检索模型,采用LOCOOC扩展方法可以使检索性能(平均准确率)提高40%以上;与传统的几种典型的扩展方法相比,该扩展方法具有更为优越的扩展性能。启发式的查询扩展方法采用的是启发式的扩展词选取策略和权重修正策略,缺乏严格的数学推导和理论依据。本文研究了KL距离检索模型架构内如何利用统计语言模型实现查询扩展的问题,从查询语言模型反推的角度探讨了查询扩展的实现途径,为查询扩展的理论研究提供了一条可行的思路。考虑到词项之间具有一定的主题内部依赖关系,本文提出了基于词项联想式扩展的反推策略,将词项之间的统计依赖关系整合到查询语言模型的反推过程中。在这种反推策略中,我们提出了“词项联想网络”(WAN, Word Association Network)的概念用以描述词项之间的统计依赖关系,阐述了利用WAN对查询语言模型进行反推的基本思路和方法,并给出了两种度量词项依赖概率的有效方法。
|
全文目录
摘要 4-6 英文摘要 6-12 图目录 12-13 表目录 13-14 第一章 引言 14-18 第二章 信息检索模型与评测概述 18-32 2.1 信息检索概述 18-22 2.1.1 TREC简介 18-19 2.1.2 术语定义 19-21 2.1.3 信息检索模型概述 21-22 2.2 布尔模型 22-23 2.2.1 经典的布尔模型 22-23 2.2.2 扩展布尔模型 23 2.3 向量空间模型 23-27 2.3.1 基本的形式化 24 2.3.2 词项权重的tf*idf计算方法 24-25 2.3.3 词项权重的规格化处理 25-26 2.3.4 小结与讨论 26-27 2.4 概率检索模型 27-28 2.5 实验评测方法 28-30 2.5.1 未插值平均准确率(MAP) 29-30 2.5.2 Precision@ X 30 2.6 本章总结 30-32 第三章 基于统计语言建模的信息检索方法 32-48 3.1 引言 32-33 3.2 统计语言建模技术 33-35 3.2.1 n-gram语言模型 33-35 3.3 查询似然检索模型 35-40 3.3.1 投掷骰子的问题 35-36 3.3.2 基于查询似然的检索模型 36-37 3.3.3 文档语言模型的估计 37-38 3.3.4 与tf*idf权重的关系 38-40 3.4 对查询似然检索模型的改进与拓展 40-42 3.4.1 统计翻译检索模型 40-41 3.4.2 基于完全贝叶斯的查询似然 41 3.4.3 KL距离检索模型 41-42 3.5 实验评测 42-44 3.6 SLMIR在跨语言检索与分布式检索中的应用 44-46 3.6.1 分布式信息检索 44-45 3.6.2 跨语言信息检索 45-46 3.7 本章总结 46-48 第四章 文档语言模型的估计与平滑研究 48-70 4.1 概述 48-49 4.2 平滑的一般形式及几种常用的平滑方法 49-51 4.2.1 几种常用的平滑方法 50-51 4.3 平滑对检索性能的影响 51-59 4.3.1 实验设计 51-52 4.3.2 平滑的行为特点分析 52-57 4.3.3 平滑方法之间的性能对比 57-58 4.3.4 平滑的双重角色 58-59 4.4 GJM-2: 一种改进的线性插值平滑方法 59-63 4.4.1 GJM与GJM-1 59-61 4.4.2 改进的GJM-2 平滑方法 61 4.4.3 实验结果 61-63 4.5 基于词项风险的平滑模型 63-68 4.5.1 平滑模型描述 63-65 4.5.2 词项风险的度量 65 4.5.3 实验和结果分析 65-68 4.6 本章总结 68-70 第五章 WQL检索模型及其启发式查询扩展 70-88 5.1 引言 70-71 5.2 相关研究现状 71-72 5.3 WQL检索模型及其启发式查询扩展 72-78 5.3.1 WQL检索模型 72-74 5.3.2 WQL中的启发式查询扩展 74-76 5.3.3 几种典型的扩展方法 76-78 5.4 LOCOOC:一种基于局部共现的查询扩展方法 78-80 5.4.1 共现信息的度量 78 5.4.2 整合全局统计信息 78-80 5.4.3 一个例子 80 5.5 实验设计 80-82 5.6 实验结果 82-85 5.6.1 查询扩展的有效性 82-83 5.6.2 扩展规模对扩展效果的影响 83-85 5.7 本章总结 85-88 第六章 查询语言模型的估计与联想式扩展 88-106 6.1 引言 88-89 6.2 从语言模型“反推”的角度看查询扩展 89-90 6.3 基于语言模型估计的反推方法 90-92 6.3.1 基于混合生成模型的极大似然估计方法 91-92 6.4 基于联想式扩展的反推方法 92-98 6.4.1 词项之间的依赖关系 92-94 6.4.2 词项联想网络(WAN, Word Association Network) 94-95 6.4.3 利用WAN反推查询语言模型 95-96 6.4.4 词项依赖概率的计算 96-98 6.5 实验评测和结果分析 98-103 6.5.1 实验方法 98-100 6.5.2 数据集和评价指标 100 6.5.3 反推的有效性分析 100-102 6.5.4 插值系数α对反推的影响 102-103 6.6 本章总结 103-106 第七章 结束语 106-110 7.1 本文工作总结和主要创新 106-108 7.1.1 文档语言模型的平滑估计 106-107 7.1.2 查询似然检索模型中的启发式查询扩展 107 7.1.3 查询语言模型的估计与联想式扩展 107-108 7.2 下一步工作展望 108-110 附录 110-114 1.T REC Ad Hoc检索任务的文档示例 110-112 2.T REC Ad Hoc检索任务为的topic示例 112-114 参考文献 114-124 致谢 124-126 作者简历 126-127
|
相似论文
- 基于SVM的高速公路路面浅层病害的自动检测算法研究,U418.6
- 生物医学领域检索系统查询扩展技术研究,TP391.3
- 面向海量邮件的检索系统研究与实现,TP393.098
- 大鼠颅内外动脉血管平滑肌细胞的体外培养与鉴定,R743.3
- 大承气汤对多器官功能障碍综合征大鼠小肠平滑肌细胞Bcl-2和Bax表达的影响,R285.5
- ROCKⅠ对PDGF介导血管平滑肌细胞迁移分子机制的研究,R363
- ROCK表达下调对PDGF介导的血管平滑肌细胞迁移、增殖的调控,R363
- 心肌梗死后hRAMP1修饰MSCs移植对球囊损伤血管再狭窄及心功能影响的研究,R542.22
- 环维黄杨星D对胃肠道平滑肌的收缩性调节研究,R965
- 药物对机体平衡的调节作用探讨,R96
- 网络搜索引擎的相关技术研究,G354
- 基于跨语言信息检索的企业竞争情报收集系统模型研究,TP391.3
- 我国所得税会计准则实施效果研究,F812.42
- HA及其受体CD44在慢性哮喘模型大鼠气道重构中作用的实验研究,R562.25
- 数字助听器中语音增强技术的研究,TN912.35
- 基于策略Agent的个性化信息检索系统的研究与实现,TP391.3
- ox-LDL对VSMC表达SDF-1α的影响及其对VSMC和SPC趋化作用的研究,R363
- 肺、体血管平滑肌细胞线粒体的异质性,R363
- 大鼠胸主动脉平滑肌细胞内PARP-1在VDR转录调节中作用的研究,R541
- 哮喘致敏血清和细胞因子引起的气道平滑肌细胞FKBP12.6表达下调及其与应激时钙释放的关系,R562.25
- 动脉中膜平滑肌细胞凋亡促进受体骨髓细胞参与移植物动脉硬化的研究,R654.3
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 检索机
© 2012 www.xueweilunwen.com
|