学位论文 > 优秀研究生学位论文题录展示
基于文档团的Markov网络检索模型
作 者: 汤皖宁
导 师: 王明文
学 校: 江西师范大学
专 业: 计算机科学与技术
关键词: 信息检索 查询扩展 Markov网络 团
分类号: TP391.3
类 型: 硕士论文
年 份: 2013年
下 载: 4次
引 用: 0次
阅 读: 论文下载
内容摘要
随着互联网的快速发展,网上的信息数据呈指数级的速度迅猛增长。用户如何在短时间内获取自己所需信息变成为难题。信息检索是有效解决上述情况关键技术。它按一定方式组织信息,根据用户的信息需求从大数据中找出相关信息。其中,用户的信息需求大多表达为查询词,由于查询词往往比较简短并存在歧义,导致检索系统返回的信息与用户需求并不相关,造成检索的结果往往并不理想。为此,研究者使用查询扩展技术对查询进行重构,使其能更好地表达用户信息需求。查询扩展的一般过程是信息检索系统首先根据用户给出的初始查询返回结果给用户,再由用户人为手动或系统自动选择几个最符合查询意图的结果,检索系统根据上述结果重构查询,系统利用重构的查询进行再次检索,使检索结果更为符合用户的真是意图。但是许多查询扩展方法选取扩展词并未充分考虑词项之间以及词项与文档之间的相关性,使得查询扩展可能加入太多不相关信息并降低检索性能。基于此,本文利用Markov网络模型为词之间、文档之间的关联信息以及词与文档之间的映射建模,然后根据词项子空间和文档子空间的映射关系提取词团,用于查询扩展。具体实验方法是首先计算词之间的相关性和文档之间的相关性构造索引词空间和文档空间,并提出最大团概念,在上述两个空间中提取出最大词团和最大文档团,将最大词团映射到最大文档团中,最终的查询扩展阶段将最大词团分为两类:一类为文档依赖最大词团,另一类是非文档依赖最大词团,赋予文档依赖词团更大的权重。由于文档依赖的词团与查询更有可能表达同一个主题,可避免主题漂移。因此,本文的方法考虑了词之间的相关性,文档之间的相关性并将词和文档之间的映射信息加入查询扩展,使得扩展的信息更加相关。
|
全文目录
摘要 3-4 ABSTRACT 4-6 目录 6-8 1 引言 8-12 1.1 研究背景 8-10 1.2 研究意义 10 1.3 本文工作 10-12 2 信息检索和查询扩展概述 12-23 2.1 信息检索简介 12 2.2 信息检索过程 12-14 2.2.1 网页搜集 12 2.2.2 预处理 12-14 2.2.3 查询服务 14 2.3 信息检索的经典模型 14-18 2.3.1 布尔模型 14-15 2.3.2 空间向量模型 15-16 2.3.3 概率模型 16-17 2.3.4 语言模型 17-18 2.4 信息检索评价 18-19 2.5 查询扩展技术 19-23 2.5.1 查询扩展的全局方法 19-21 2.5.2 查询扩展的局部方法 21-22 2.5.3 查询扩展技术的发展趋势 22-23 3 基于文档团的 Markov 网络检索模型 23-28 3.1 Markov 网络检索模型 23-24 3.2 Markov 网络检索模型构造方法 24-25 3.2.1 词项相关性和文档相关性的度量 24 3.2.2 文档与索引词项之间映射 24-25 3.3 团的提取和词团与文档团的映射 25-26 3.3.1 团的提取 25 3.3.2 文档团与词团映射 25-26 3.4 模型的构造 26-28 4 实验 28-40 4.1 实验准备 28-29 4.1.1 实验数据集 28-29 4.1.2 数据集预处理 29 4.2 实验设计以及参数选择 29-38 4.2.1 词之间、文档之间的相似度阈值的选择 29 4.2.2 词团个数的选择 29-30 4.2.3 文档依赖的词团的权重和非文档依赖词团的权重的选择 30-33 4.2.4 文档依赖词团与非文档依赖词团重要性比较 33-38 4.3 实验结果和分析 38-40 5 总结展望 40-42 5.1 论文总结 40 5.2 未来工作 40-42 参考文献 42-45 致谢 45-46 个人简历 46
|
相似论文
- 循环流化床内颗粒聚团的传热特性研究,TK124
- 生物医学领域检索系统查询扩展技术研究,TP391.3
- 钯催化的烯烃双官能团化和吲哚三氟甲基化反应研究,O643.32
- 中华校园团购网营销策略研究,F274
- 周期性饥饿再投喂对团头鲂和建鲤生长性能、体组成、消化酶及抗氧化酶的影响,S917.4
- 网络搜索引擎的相关技术研究,G354
- J科技学院团干部生涯规划机制研究,D297
- 影响汤圆用糯米粉品质因素的研究,TS212
- RGD肽修饰的壳寡糖硬脂酸聚合物胶团的肿瘤靶向性研究,R943
- 基于Web的未登录词翻译技术研究,TP391.2
- 基于社会网络分析的藏文web链接结构研究,TP393.09
- 网络团购顾客满意度评价指标体系研究,F203;F224
- 叶酸修饰壳寡糖硬脂酸嫁接物的基因载体研究,R450
- 基于层次分析法的网络团购经营模式研究,F713.36
- WnC0,±(n=1-6)团簇的密度泛函理论研究,O641.1
- (OsnN)0, ±(n=1-6)团簇结构与性能的理论研究,O641.1
- PtnN0,±(n=1-5)团簇结构与性能的理论研究,O641.1
- 基于查询扩展的信息抽取技术研究及应用,TP391.1
- 磁敏感加权成像评估脑铁含量的实验研究及临床应用初探,R445.2
- Ptn+/Ptn-(n=3-6)异构体及单重态和三重态Pt2催化甲烷脱氢的量子化学研究,O641.1
- 含吡唑杂环二酰胺类化合物的合成及生物活性研究,TQ450.1
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 检索机
© 2012 www.xueweilunwen.com
|