学位论文 > 优秀研究生学位论文题录展示
基于描述复杂性的信息检索理论与若干模型研究
作 者: 王修力
导 师: 宋柔
学 校: 北京语言大学
专 业: 语言学及应用语言学
关键词: 文本信息检索 描述复杂性 NID NCD 图模型 简单关联模型 经验模型 经验模型的ad hoc问题 信息检索的ad hoc问题
分类号: G354
类 型: 博士论文
年 份: 2006年
下 载: 322次
引 用: 2次
阅 读: 论文下载
内容摘要
我们在文中讨论了几种模型:基于kolmogorov complexity的NID(NCD)理论的几种模型(第二章、第三章),图模型(第四章),简单关联模型(第五章),设计程序进行了实验验证,和经典的向量空间模型做了对比。并且从两个方面力图解决信息检索理论和经验上的ad hoc问题:从普遍理论导出检索模型,用普遍理论解释经验模型。此外,探讨了信息检索结果等价的形式化分析、向量空间模型假设的形式化分析及其前缀复杂性表示。 一,在NCD理论和模型方面做的工作主要有三:信息检索的NCD解释、NCD模型近似实现和试验、经验模型和NCD模型的比较和解释。 1:信息检索的NCD理论(第二章)。我们从算法信息(描述复杂性)的角度讨论了信息检索的NCD理论。NCD从理论方面给出了解决信息检索理论上一直存在的ad hoc问题的途径。由Kolmogorov complexity定义出来的NCD在理论上证明为一切有意义的距离中最优的。如果信息检索必须含有评分和排序,并且将相关度等同于评分函数所得到的评分,依照评分来排序文档,那么,理论上NCD应该是最优的检索模型。但是由于NCD不可计算,因此只提供了一个理论解释,而具体模型则需要我们用各种策略去近似NCD。 2:NCD模型近似实现和试验(第二章、第三章)。2a.NCD模型依照压缩算法的近似实现和试验(第二章)。 ●我们由NCD理论近似得出了两种基于压缩算法的模型。两个模型由NCD理论近似导出,不同于信息检索的模型(信息检索模型一直具有ad hoc问题),并且是揭示了压缩和信息检索相关度之间的关系。就文本的结构算法信息进行了实验。实验的结果表明,压缩率越大,则检索效果越好。而对文本做编码,使得单词能够作为一个单位,或者编码长度一致,检索效果也有了提高。这表明,进一步改进压缩算法,提高压缩率,进而得到更高的检索效果;修改实现压缩算法的程序,使之真正以单词为单位进行压缩,从而得到更好的检索效果。 ●我们根据lz算法,设计了一个简单算法,真正以单词为单位进行压缩(把词作为不可压缩的码字),编制程序进行了实验验证。实验结果表明,真正以单词为单位进行压缩,则检索性能大有提高,限于条件,简化算法没有达到lz算法最优压缩效果。
|
全文目录
关于学位论文使用授权的说明 5-6 摘要 6-9 Abstract 9-20 第一章 信息检索概述 20-42 1.1 引言 20-23 1.2 四种基本的信息检索模型 23-38 1.2.1 基于集合论的模型 23-25 1.2.1.1 布尔模型 23-24 1.2.1.2 布尔模型的几种变体 24 1.2.1.3 MMM模型 24 1.2.1.4 Paice模型 24-25 1.2.1.5 P-norm模型 25 1.2.2 代数模型 25-31 1.2.2.1 向量空间模型 25-28 1.2.2.2 广义向量空间模型 28-30 1.2.2.3 潜在语义标引模型(latent semantics indexing model,LSI) 30 1.2.2.4 神经网络模型(Neural Network Model) 30-31 1.2.3 概率模型 31-34 1.2.3.1 贝叶斯网络(bayesian) 34 1.2.4 语言模型 34-38 1.2.4.1 一元语法模型 35-36 1.2.4.2 隐马尔科夫模型(HMM) 36 1.2.4.3 统计语言翻译模型 36-37 1.2.4.4 信息检索的语言模型和贝叶斯决策理论 37-38 1.3 检索模型评价与评测组织 38-39 1.3.1 模型评价 38 1.3.2 TREC简介 38-39 1.4 模型的基础理论研究以及理论研究上的ad hoc问题 39-40 1.5 各种模型的实现 40-42 1.5.1 一般信息检索系统的架构 40 1.5.2 几个信息检索软件简介 40-42 1.5.2.1 smart 40 1.5.2.2 lemur 40-42 第二章 信息检索的NID(NCD)距离与由此导出的模型 42-79 2.1 描述复杂性理论(Kolmogorov's complexity) 42-47 2.1.1 任意性或随机性与不可计算性或非递归性 42 2.1.2 描述复杂性(Kolmogorov's complexity) 42-43 2.1.3 准测度,描述概率和推理概率 43-45 2.1.4 描述复杂性(Kolmogorov's comptexity)和距离 45-47 2.2 描述复杂性(Kolmogorov's complexity),归一化绝对距离和信息检索 47-53 2.2.1 归一化绝对距离 47-49 2.2.2 压缩概述,有损压缩,无损压缩与信息检索 49-53 2.2.2.1 通用压缩算法概述 50-52 2.2.2.2 非通用压缩-多媒体数据的压缩 52 2.2.2.3 压缩算法和技术目前和将来的发展 52-53 2.2.2.4 有损压缩,无损压缩和信息检索 53 2.3 信息检索的NCD模型 53-54 2.3.1 信息检索的NCD模型的实现 53-54 2.4 信息检索的NCD模型的zlib近似实现和实验 54-66 2.4.1 实验1 54-58 2.4.1.1 实验1的设定 54-57 2.4.1.2 实验1的结果 57-58 2.4.1.3 实验1的分析 58 2.4.2 实验2 58-60 2.4.2.1 实验2的设定 58 2.4.2.2 实验2的结果 58-59 2.4.2.3 实验2的分析 59-60 2.4.3 实验3 60-61 2.4.3.1 实验3的设定 60 2.4.3.2 实验3的结果 60-61 2.4.3.3 实验3的分析 61 2.4.4 实验4 61-63 2.4.4.1 实验4的设定 61-62 2.4.4.2 实验4的结果 62 2.4.4.3 实验4的分析 62-63 2.4.5 实验5 63-64 2.4.5.1 实验5的设定 63 2.4.5.2 实验5的结果 63-64 2.4.5.3 实验5的分析 64 2.4.6 实验6 64-66 2.4.6.1 实验6的设定 64-65 2.4.6.2 实验6的结果 65 2.4.6.3 实验6的分析 65-66 2.4.7 zlib试验分析 66 2.5 ncd的bzip近似模型与实验 66-73 2.5.1 bzip近似模型的压缩算法 66-68 2.5.2 实验7 68-69 2.5.2.1 实验7的设定 68 2.5.2.2 实验7的结果 68-69 2.5.2.3 实验7的分析 69 2.5.3 实验8 69-71 2.5.3.1 实验8的设定 69 2.5.3.2 实验8的结果 69-70 2.5.3.3 实验8的分析 70-71 2.5.4 实验9 71-72 2.5.4.1 实验9的设定 71 2.5.4.2 实验9的结果 71-72 2.5.4.3 实验9的分析 72 2.5.5 bzip试验分析 72-73 2.6 NCD模型一个简单的近似实现 73-76 2.6.1 实验10 73-75 2.6.1.1 实验10的设定 73 2.6.1.2 实验10的结果 73-74 2.6.1.3 实验10的分析 74-75 2.6.2 实验11 75-76 2.6.2.1 实验11的设定 75 2.6.2.2 实验11的结果 75-76 2.6.2.3 实验11的分析 76 2.7 结论与将来的工作 76-79 2.7.1 信息检索的NCD理论 76-77 2.7.2 NCD模型依照压缩算法的近似实现和试验 77 2.7.2.1 NCD模型依照LZ,BWT的近似实现和试验 77 2.7.2.2 NCD模型以单词为单位进行压缩的LZ简单实现和试验 77 2.7.3 信息检索NCD模型将来的进一步工作 77-79 第三章 信息检索的经验模型,NCD距离与NCD距离模型探讨 79-91 3.1 信息检索的形式定义与若干性质 79-80 3.1.1 信息检索的形式描述 79-80 3.2 向量空间模型与其他经验模型的比较,向量空间模型的假设 80-82 3.2.1 语言模型和向量空间模型的比较 80-81 3.2.2 向量空间模型的假设 81 3.2.3 一个典型的向量空间模型的表示函数与评分函数 81-82 3.3 归一化绝对距离在VSM两个假设之下导出的模型与实验验证 82-87 3.3.1 归一化绝对距离在向量空间模型的两个假设之下导出的模型 83-84 3.3.2 实验1 84-86 3.3.2.1 实验1的设定 84-85 3.3.2.2 实验1的结果 85-86 3.3.2.3 实验1的分析 86 3.3.3 实验2 86-87 3.3.3.1 实验2的设定 86 3.3.3.2 实验2的结果 86-87 3.3.3.3 实验2的分析 87 3.4 向量空间模型与归一化绝对距离的比较 87-89 3.4.1 向量空间模型与归一化绝对距离 87-89 3.5 结论和将来的工作 89-91 3.5.1 信息检索结果等价的形式化分析、向量空间模型假设的形式化分析及其前缀复杂性表示 89 3.5.2 NCD模型在VSM假设之下的近似实现和试验 89-90 3.5.3 NCD模型中近似取得词语的算法信息或前缀复杂度的方法 90 3.5.4 经验模型(VSM)和NCD模型的比较和解释 90-91 第四章 信息检索的文档图模型 91-99 4.1 文档图模型与相关的工作 91-92 4.1.1 文档图模型 91 4.1.2 我们的图模型和其他机构一些相关的工作 91-92 4.2 离散马尔可夫链、图模型、对阅读过程的建模(词之间,句子之间的连接关系) 92-96 4.3 图模型试验 96-97 4.3.1 实验1 96-97 4.3.1.1 实验1的设定 96 4.3.1.2 实验1的结果 96-97 4.3.1.3 实验1的分析 97 4.4 结论和将来的工作 97-99 第五章 关联模型:简化的实现和试验 99-109 5.1 简单关联模型 99-100 5.2 简单关联模型试验一 100-102 5.2.1 实验设定 100 5.2.2 实验结果 100-101 5.2.3 实验分析 101-102 5.3 简单关联模型试验二 102-104 5.3.1 实验设定 102 5.3.2 实验结果 102-103 5.3.3 实验分析 103-104 5.4 简单关联模型试验三:混合简单关联模型和向量空间模型 104-105 5.4.1 实验设定 104 5.4.2 实验结果 104-105 5.4.3 实验分析 105 5.5 混合实验对应的简单向量空间模型实验 105-107 5.5.1 实验设定 105-106 5.5.2 实验结果 106-107 5.5.3 实验分析 107 5.6 简单关联模型结论和将来进一步的工作 107-109 第六章 经典信息检索模型的相关实验 109-119 6.1 经典信息检索模型的软件实现 109-110 6.1.1 简单的经典模型检索 109 6.1.2 带反馈的经典模型检索 109 6.1.3 rerank检索 109-110 6.1.4 评测 110 6.2 信息检索的向量空间,okapi,lm模型的检索实验 110-113 6.2.1 实验1 110-111 6.2.1.1 实验1的设定 110 6.2.1.2 实验1的结果 110-111 6.2.2 实验2 111-112 6.2.2.1 实验2的设定 111 6.2.2.2 实验2的结果 111-112 6.2.3 实验3 112-113 6.2.3.1 实验3的设定 112 6.2.3.2 实验3的结果 112-113 6.3 反馈试验 113-115 6.3.1 实验4 113-114 6.3.1.1 实验4的设定 113 6.3.1.2 实验4的结果 113-114 6.3.2 实验5 114-115 6.3.2.1 实验5的设定 114 6.3.2.2 实验5的结果 114-115 6.4 信息检索模型的rerank实验 115-119 6.4.1 实验6 115-116 6.4.1.1 实验6的设定 115-116 6.4.1.2 实验6的结果 116 6.4.1.3 实验6的分析 116 6.4.2 实验7 116-117 6.4.2.1 实验7的设定 116-117 6.4.2.2 实验7的结果 117 6.4.3 实验8 117-119 6.4.3.1 实验8的设定 117-118 6.4.3.2 实验8的结果 118-119 第七章 结论 119-123 7.1 基于kolmogorov complexity的NCD模型,理论和经验模型的解释 119-121 7.1.1 信息检索的NCD理论 119 7.1.2 基于kolmogorov complexity的NCD模型的近似实现和试验 119-120 7.1.2.1 NCD模型依照压缩算法的近似实现和试验 119-120 7.1.2.2 NCD模型在VSM假设之下的近似实现和试验 120 7.1.3 VSM诸经验摸型和NCD模型的比较和解释 120-121 7.1.3.1 近似取得词语的算法信息或前缀复杂度的方法 120 7.1.3.2 经验模型(VSM)和NCD模型的比较和解释 120-121 7.2 信息检索结果等价,VSM假设的形式化分析和VSM假设的前缀复杂性表示 121 7.2.1 信息检索结果等价的形式化分析 121 7.2.2 向量空间模型假设的形式化分析和前缀复杂性表示 121 7.3 图模型 121-122 7.4 简单关联模型 122-123 参考文献 123-129 致谢 129-130 声明 130-131 附录A 相关数学概念,定理,公式和证明 131-132 A.1 随机性和有效测试的有关概念和定理 131-132 个人简历、在学期间的研究成果及发表的论文 132
|
相似论文
- 支持XML数据查询的F&B索引结构的研究,TP311.13
- 高分辨率SAR影像裸土信息提取及土壤含水量反演初探,S152.7
- 基于磁滞优化的车辆路径问题研究,O224
- 基于概率图模型的态势估计,E917
- 基于统计与图模型的若干机器学习算法及其应用,TP181
- 基于模型的人体运动跟踪和姿态分析技术研究,TP391.41
- 内陆水体水色要素反演算法研究,TP79
- 基于混合层次关系的扩展角色图模型研究,TP393.08
- 基于结构方程的旅游竞争力模型,F592
- 污水处理厂绩效评价的多目标树图分析,X703
- 用例图到顺序图转换的研究,TP311.52
- 基于图模型的中文小样本文本分类研究,TP391.1
- 我国城镇居民基本医疗保险基金运行的计量研究,F842.6
- 极端行星际条件下的磁层顶位形研究,P353
- 需求概念图导引下的网页检索结果分析,TP391.3
- 基于图模型的间歇过程误操作风险辨识方法研究,TQ086.3
- 有环图结构的编码以及查询算法研究,TP301.6
- 面向多媒体编解码应用的多处理器系统芯片任务并行化方法的研究与实现,TP332
- 基于潜在语义分析的文本检索算法研究,TP391.3
- 运用超临界二氧化碳技术络合萃取重金属离子的研究,X505
- 纳米金刚石涂层的接触疲劳性能研究,TB383.1
中图分类: > 文化、科学、教育、体育 > 科学、科学研究 > 情报学、情报工作 > 情报检索
© 2012 www.xueweilunwen.com
|