学位论文 > 优秀研究生学位论文题录展示

潜在语义的Markov网络检索模型的研究

作 者: 盛俊
导 师: 王明文
学 校: 江西师范大学
专 业: 计算机软件与理论
关键词: 信息检索 图形模型 潜在语义 Markov网络 查询扩展
分类号: TP391.3
类 型: 硕士论文
年 份: 2006年
下 载: 88次
引 用: 2次
阅 读: 论文下载
 

内容摘要


随着网络技术不断发展,人们可方便获得大量信息,但高效的获取信息仍是面临的一个巨大挑战。信息检索是一种有效地获得信息的技术,它能帮助人们从海量信息中迅速找到所需信息。 在检索模型中,由于文档和查询的不确定性,它们之间的词的简单匹配使检索效果低下。图形模型是近年在信息检索领域中研究较多且比较有效的检索模型之一。通过对不确定知识的学习和推理,图形模型引入对检索有利的信息,从而能提高检索效果。贝叶斯网络模型就是一种较好的图形模型,它有着很好的检索性能。然而,贝叶斯网络的边是有向的,使得网络的构造是一个复杂的过程,并且边的有向性缺乏有效语义解释。 针对上述问题,本文提出潜在语义Markov网络检索模型(LSMNM:Latent Semantic Markov Network Retrieval Model)。Markov网络是一种不确定知识表示和推理有力工具,而且它的无向性易于网络的构造,更好地解释了知识之间的关联。 在本文模型中,通过对文档集的学习,词之间和文档之间的潜在语义被提取出来,从而构造出Markov知识网络,然后,我们利用Markov网络学习到的潜在语义信息进行检索。根据我们的实验结果,LSMNM有较好的适用性,在英文文本检索中表现出很好检索的效果,相比较BM25模型而言检索性能有一定程度的提高。 本文的创新点在于: 1) 提出了潜在语义的Markov网络检索模型。模型对词—文档矩阵进行奇异值分解,提取文档集中的潜在语义信息,然后利用潜在语义信息构造Markov知识网络用来检索。本模型描述性能很强,已有经典模型均可看作此模型的特例。 2) 我们验证和分析了潜在语义的Markov网络检索模型的检索性能,对该模型与其它常用检索模型的性能做了比较,并且分析了模型中的参数的取值变化对模型检索性能的影响。实验同时说明本模型中的潜在语义能很好地刻画文档集中真正的语义关联。

全文目录


摘要  2-3
ABSTRACT  3-4
目录  4-6
第一章 绪论  6-10
  1.1 研究背景  6
  1.2 本文工作  6-7
  1.3 论文组织  7-10
第二章 信息检索综述  10-26
  2.1 信息检索的过程  10-11
  2.2 文档预处理  11-12
  2.3 信息检索模型  12-22
    2.3.1 布尔模型  13-14
    2.3.2 向量空间模型  14-16
    2.3.3 概率模型  16-18
    2.3.4 其它常见检索模型  18-22
  2.4 信息检索的评价  22-26
    2.4.1 测试文档集  22-23
    2.4.2 精确率和召回率  23-26
第三章 相关的图形模型  26-32
  3.1 推理网络模型  26-29
    3.1.1 推理网络  26-28
    3.1.2 关联矩阵  28-29
  3.2 贝叶斯网络模型  29-32
    3.2.1 贝叶斯网络  29
    3.2.2 贝叶斯网络模型  29-32
第四章 潜在语义Markov网络检索模型  32-48
  4.1 相关的定义  32-33
  4.2 Markov网络模型  33-36
    4.2.1 Markov网络模型结构  33-34
    4.2.2 索引项相关的度量  34-35
    4.2.3 文档相关的度量  35-36
  4.3 潜在语义的Markov网络的构造  36-40
    4.3.1 构造索引项子空间  37-39
    4.3.2 构造文档子空间  39-40
  4.4 潜在语义的Markov网络检索模型  40-48
    4.4.1 模型的数学推导  40-41
    4.4.2 查询扩展的处理  41-43
    4.4.3 模型的形式  43-48
第五章 实验结果和分析  48-58
  5.1 测试文档集  48
  5.2 数据预处理  48-49
  5.3 实验结果  49-58
    5.3.1 不同检索模型的比较  49-52
    5.3.2 参数取值分析  52-58
第六章 总结和展望  58-60
  6.1 总结  58
  6.2 未来的工作  58-60
参考文献  60-64
致谢  64

相似论文

  1. 生物医学领域检索系统查询扩展技术研究,TP391.3
  2. 主观题自动评分技术研究,TP391.1
  3. 基于PLSA语义聚类的web服务发现方法,TP393.09
  4. 英汉跨语言问答系统中的文档语义检索,TP391.1
  5. 基于概率的潜在语义分析模型在搜索引擎商业文本分类系统中的应用研究,TP391.1
  6. 基于Web的医学文献数据库的设计与实现,TP311.13
  7. 基于聚类分析的搜索引擎自动性能评价研究,TP391.3
  8. 局部描述特征结合概率潜在语义模型的场景分类技术研究,TP391.41
  9. 基于本体的语义查询扩展研究,TP391.3
  10. 服装面料信息管理技术研究,TS941.15
  11. 本体在医疗信息检索系统中的应用研究,TP391.3
  12. 基于本体的语义信息检索模型研究,TP391.3
  13. 动态全文索引系统关键技术研究,TP391.3
  14. 基于R树的空间—文本混合索引方法,P208
  15. 关系数据库的关键字查询优化研究,TP311.13
  16. 垂直搜索引擎在网络购物系统中的研究与应用,TP391.3
  17. 私有信息检索及其应用的研究,TN918.1
  18. 基于Markov团的信息检索扩展模型,TP391.3
  19. 文本分类和聚类若干模型的研究,TP391.1
  20. 基于本体的构件测试信息语义检索方法的研究与实现,TP311.52
  21. 基于链接结构的站点主题层次抽取方法,TP393.092

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 检索机
© 2012 www.xueweilunwen.com