学位论文 > 优秀研究生学位论文题录展示

基于描述复杂性的信息检索理论与若干模型研究

作　者: 王修力
导　师: 宋柔
学　校: 北京语言大学
专　业: 语言学及应用语言学
关键词: 文本信息检索描述复杂性 NID NCD 图模型简单关联模型经验模型经验模型的ad hoc问题信息检索的ad hoc问题
分类号: G354
类　型: 博士论文
年　份: 2006年
下　载: 322次
引　用: 2次
阅　读: 论文下载

内容摘要

我们在文中讨论了几种模型：基于kolmogorov complexity的NID(NCD)理论的几种模型(第二章、第三章)，图模型(第四章)，简单关联模型(第五章)，设计程序进行了实验验证，和经典的向量空间模型做了对比。并且从两个方面力图解决信息检索理论和经验上的ad hoc问题：从普遍理论导出检索模型，用普遍理论解释经验模型。此外，探讨了信息检索结果等价的形式化分析、向量空间模型假设的形式化分析及其前缀复杂性表示。一，在NCD理论和模型方面做的工作主要有三：信息检索的NCD解释、NCD模型近似实现和试验、经验模型和NCD模型的比较和解释。 1：信息检索的NCD理论(第二章)。我们从算法信息(描述复杂性)的角度讨论了信息检索的NCD理论。NCD从理论方面给出了解决信息检索理论上一直存在的ad hoc问题的途径。由Kolmogorov complexity定义出来的NCD在理论上证明为一切有意义的距离中最优的。如果信息检索必须含有评分和排序，并且将相关度等同于评分函数所得到的评分，依照评分来排序文档，那么，理论上NCD应该是最优的检索模型。但是由于NCD不可计算，因此只提供了一个理论解释，而具体模型则需要我们用各种策略去近似NCD。 2：NCD模型近似实现和试验(第二章、第三章)。2a．NCD模型依照压缩算法的近似实现和试验(第二章)。 ●我们由NCD理论近似得出了两种基于压缩算法的模型。两个模型由NCD理论近似导出，不同于信息检索的模型(信息检索模型一直具有ad hoc问题)，并且是揭示了压缩和信息检索相关度之间的关系。就文本的结构算法信息进行了实验。实验的结果表明，压缩率越大，则检索效果越好。而对文本做编码，使得单词能够作为一个单位，或者编码长度一致，检索效果也有了提高。这表明，进一步改进压缩算法，提高压缩率，进而得到更高的检索效果；修改实现压缩算法的程序，使之真正以单词为单位进行压缩，从而得到更好的检索效果。 ●我们根据lz算法，设计了一个简单算法，真正以单词为单位进行压缩(把词作为不可压缩的码字)，编制程序进行了实验验证。实验结果表明，真正以单词为单位进行压缩，则检索性能大有提高，限于条件，简化算法没有达到lz算法最优压缩效果。

全文目录

关于学位论文使用授权的说明  5-6
摘要  6-9
Abstract  9-20
第一章信息检索概述  20-42
  1.1 引言  20-23
  1.2 四种基本的信息检索模型  23-38
    1.2.1 基于集合论的模型  23-25
      1.2.1.1 布尔模型  23-24
      1.2.1.2 布尔模型的几种变体  24
      1.2.1.3 MMM模型  24
      1.2.1.4 Paice模型  24-25
      1.2.1.5 P-norm模型  25
    1.2.2 代数模型  25-31
      1.2.2.1 向量空间模型  25-28
      1.2.2.2 广义向量空间模型  28-30
      1.2.2.3 潜在语义标引模型(latent semantics indexing model,LSI)  30
      1.2.2.4 神经网络模型(Neural Network Model)  30-31
    1.2.3 概率模型  31-34
      1.2.3.1 贝叶斯网络(bayesian)  34
    1.2.4 语言模型  34-38
      1.2.4.1 一元语法模型  35-36
      1.2.4.2 隐马尔科夫模型(HMM)  36
      1.2.4.3 统计语言翻译模型  36-37
      1.2.4.4 信息检索的语言模型和贝叶斯决策理论  37-38
  1.3 检索模型评价与评测组织  38-39
    1.3.1 模型评价  38
    1.3.2 TREC简介  38-39
  1.4 模型的基础理论研究以及理论研究上的ad hoc问题  39-40
  1.5 各种模型的实现  40-42
    1.5.1 一般信息检索系统的架构  40
    1.5.2 几个信息检索软件简介  40-42
      1.5.2.1 smart  40
      1.5.2.2 lemur  40-42
第二章信息检索的NID(NCD)距离与由此导出的模型  42-79
  2.1 描述复杂性理论(Kolmogorov's complexity)  42-47
    2.1.1 任意性或随机性与不可计算性或非递归性  42
    2.1.2 描述复杂性(Kolmogorov's complexity)  42-43
    2.1.3 准测度,描述概率和推理概率  43-45
    2.1.4 描述复杂性(Kolmogorov's comptexity)和距离  45-47
  2.2 描述复杂性(Kolmogorov's complexity),归一化绝对距离和信息检索  47-53
    2.2.1 归一化绝对距离  47-49
    2.2.2 压缩概述,有损压缩,无损压缩与信息检索  49-53
      2.2.2.1 通用压缩算法概述  50-52
      2.2.2.2 非通用压缩-多媒体数据的压缩  52
      2.2.2.3 压缩算法和技术目前和将来的发展  52-53
      2.2.2.4 有损压缩,无损压缩和信息检索  53
  2.3 信息检索的NCD模型  53-54
    2.3.1 信息检索的NCD模型的实现  53-54
  2.4 信息检索的NCD模型的zlib近似实现和实验  54-66
    2.4.1 实验1  54-58
      2.4.1.1 实验1的设定  54-57
      2.4.1.2 实验1的结果  57-58
      2.4.1.3 实验1的分析  58
    2.4.2 实验2  58-60
      2.4.2.1 实验2的设定  58
      2.4.2.2 实验2的结果  58-59
      2.4.2.3 实验2的分析  59-60
    2.4.3 实验3  60-61
      2.4.3.1 实验3的设定  60
      2.4.3.2 实验3的结果  60-61
      2.4.3.3 实验3的分析  61
    2.4.4 实验4  61-63
      2.4.4.1 实验4的设定  61-62
      2.4.4.2 实验4的结果  62
      2.4.4.3 实验4的分析  62-63
    2.4.5 实验5  63-64
      2.4.5.1 实验5的设定  63
      2.4.5.2 实验5的结果  63-64
      2.4.5.3 实验5的分析  64
    2.4.6 实验6  64-66
      2.4.6.1 实验6的设定  64-65
      2.4.6.2 实验6的结果  65
      2.4.6.3 实验6的分析  65-66
    2.4.7 zlib试验分析  66
  2.5 ncd的bzip近似模型与实验  66-73
    2.5.1 bzip近似模型的压缩算法  66-68
    2.5.2 实验7  68-69
      2.5.2.1 实验7的设定  68
      2.5.2.2 实验7的结果  68-69
      2.5.2.3 实验7的分析  69
    2.5.3 实验8  69-71
      2.5.3.1 实验8的设定  69
      2.5.3.2 实验8的结果  69-70
      2.5.3.3 实验8的分析  70-71
    2.5.4 实验9  71-72
      2.5.4.1 实验9的设定  71
      2.5.4.2 实验9的结果  71-72
      2.5.4.3 实验9的分析  72
    2.5.5 bzip试验分析  72-73
  2.6 NCD模型一个简单的近似实现  73-76
    2.6.1 实验10  73-75
      2.6.1.1 实验10的设定  73
      2.6.1.2 实验10的结果  73-74
      2.6.1.3 实验10的分析  74-75
    2.6.2 实验11  75-76
      2.6.2.1 实验11的设定  75
      2.6.2.2 实验11的结果  75-76
      2.6.2.3 实验11的分析  76
  2.7 结论与将来的工作  76-79
    2.7.1 信息检索的NCD理论  76-77
    2.7.2 NCD模型依照压缩算法的近似实现和试验  77
      2.7.2.1 NCD模型依照LZ,BWT的近似实现和试验  77
      2.7.2.2 NCD模型以单词为单位进行压缩的LZ简单实现和试验  77
    2.7.3 信息检索NCD模型将来的进一步工作  77-79
第三章信息检索的经验模型,NCD距离与NCD距离模型探讨  79-91
  3.1 信息检索的形式定义与若干性质  79-80
    3.1.1 信息检索的形式描述  79-80
  3.2 向量空间模型与其他经验模型的比较,向量空间模型的假设  80-82
    3.2.1 语言模型和向量空间模型的比较  80-81
    3.2.2 向量空间模型的假设  81
    3.2.3 一个典型的向量空间模型的表示函数与评分函数  81-82
  3.3 归一化绝对距离在VSM两个假设之下导出的模型与实验验证  82-87
    3.3.1 归一化绝对距离在向量空间模型的两个假设之下导出的模型  83-84
    3.3.2 实验1  84-86
      3.3.2.1 实验1的设定  84-85
      3.3.2.2 实验1的结果  85-86
      3.3.2.3 实验1的分析  86
    3.3.3 实验2  86-87
      3.3.3.1 实验2的设定  86
      3.3.3.2 实验2的结果  86-87
      3.3.3.3 实验2的分析  87
  3.4 向量空间模型与归一化绝对距离的比较  87-89
    3.4.1 向量空间模型与归一化绝对距离  87-89
  3.5 结论和将来的工作  89-91
    3.5.1 信息检索结果等价的形式化分析、向量空间模型假设的形式化分析及其前缀复杂性表示  89
    3.5.2 NCD模型在VSM假设之下的近似实现和试验  89-90
    3.5.3 NCD模型中近似取得词语的算法信息或前缀复杂度的方法  90
    3.5.4 经验模型(VSM)和NCD模型的比较和解释  90-91
第四章信息检索的文档图模型  91-99
  4.1 文档图模型与相关的工作  91-92
    4.1.1 文档图模型  91
    4.1.2 我们的图模型和其他机构一些相关的工作  91-92
  4.2 离散马尔可夫链、图模型、对阅读过程的建模(词之间,句子之间的连接关系)  92-96
  4.3 图模型试验  96-97
    4.3.1 实验1  96-97
      4.3.1.1 实验1的设定  96
      4.3.1.2 实验1的结果  96-97
      4.3.1.3 实验1的分析  97
  4.4 结论和将来的工作  97-99
第五章关联模型：简化的实现和试验  99-109
  5.1 简单关联模型  99-100
  5.2 简单关联模型试验一  100-102
    5.2.1 实验设定  100
    5.2.2 实验结果  100-101
    5.2.3 实验分析  101-102
  5.3 简单关联模型试验二  102-104
    5.3.1 实验设定  102
    5.3.2 实验结果  102-103
    5.3.3 实验分析  103-104
  5.4 简单关联模型试验三：混合简单关联模型和向量空间模型  104-105
    5.4.1 实验设定  104
    5.4.2 实验结果  104-105
    5.4.3 实验分析  105
  5.5 混合实验对应的简单向量空间模型实验  105-107
    5.5.1 实验设定  105-106
    5.5.2 实验结果  106-107
    5.5.3 实验分析  107
  5.6 简单关联模型结论和将来进一步的工作  107-109
第六章经典信息检索模型的相关实验  109-119
  6.1 经典信息检索模型的软件实现  109-110
    6.1.1 简单的经典模型检索  109
    6.1.2 带反馈的经典模型检索  109
    6.1.3 rerank检索  109-110
    6.1.4 评测  110
  6.2 信息检索的向量空间,okapi,lm模型的检索实验  110-113
    6.2.1 实验1  110-111
      6.2.1.1 实验1的设定  110
      6.2.1.2 实验1的结果  110-111
    6.2.2 实验2  111-112
      6.2.2.1 实验2的设定  111
      6.2.2.2 实验2的结果  111-112
    6.2.3 实验3  112-113
      6.2.3.1 实验3的设定  112
      6.2.3.2 实验3的结果  112-113
  6.3 反馈试验  113-115
    6.3.1 实验4  113-114
      6.3.1.1 实验4的设定  113
      6.3.1.2 实验4的结果  113-114
    6.3.2 实验5  114-115
      6.3.2.1 实验5的设定  114
      6.3.2.2 实验5的结果  114-115
  6.4 信息检索模型的rerank实验  115-119
    6.4.1 实验6  115-116
      6.4.1.1 实验6的设定  115-116
      6.4.1.2 实验6的结果  116
      6.4.1.3 实验6的分析  116
    6.4.2 实验7  116-117
      6.4.2.1 实验7的设定  116-117
      6.4.2.2 实验7的结果  117
    6.4.3 实验8  117-119
      6.4.3.1 实验8的设定  117-118
      6.4.3.2 实验8的结果  118-119
第七章结论  119-123
  7.1 基于kolmogorov complexity的NCD模型,理论和经验模型的解释  119-121
    7.1.1 信息检索的NCD理论  119
    7.1.2 基于kolmogorov complexity的NCD模型的近似实现和试验  119-120
      7.1.2.1 NCD模型依照压缩算法的近似实现和试验  119-120
      7.1.2.2 NCD模型在VSM假设之下的近似实现和试验  120
    7.1.3 VSM诸经验摸型和NCD模型的比较和解释  120-121
      7.1.3.1 近似取得词语的算法信息或前缀复杂度的方法  120
      7.1.3.2 经验模型(VSM)和NCD模型的比较和解释  120-121
  7.2 信息检索结果等价,VSM假设的形式化分析和VSM假设的前缀复杂性表示  121
    7.2.1 信息检索结果等价的形式化分析  121
    7.2.2 向量空间模型假设的形式化分析和前缀复杂性表示  121
  7.3 图模型  121-122
  7.4 简单关联模型  122-123
参考文献  123-129
致谢  129-130
声明  130-131
附录A 相关数学概念,定理,公式和证明  131-132
  A.1 随机性和有效测试的有关概念和定理  131-132
个人简历、在学期间的研究成果及发表的论文  132

基于描述复杂性的信息检索理论与若干模型研究

内容摘要

全文目录

相似论文