学位论文 > 优秀研究生学位论文题录展示
基于Markov团的信息检索扩展模型
作 者: 石松
导 师: 王明文
学 校: 江西师范大学
专 业: 计算机科学与技术
关键词: 信息检索 查询扩展 全局分析 Markov网络 团
分类号: TP391.3
类 型: 硕士论文
年 份: 2011年
下 载: 6次
引 用: 0次
阅 读: 论文下载
内容摘要
信息检索过程中最重要的环节就是检索出与用户需求相关的内容。其核心问题就是:对于给定的用户查询,对文档集中的每个文档与查询进行相关性判断。在这一过程中,查询表达了用户的信息需求,是信息检索过程中最为关键的数据之一,其内容准确与否直接关系到检索结果的好坏。但是,由于查询词简短且存在一词多义和一义多词的现象,往往会造成用户查询与数据不匹配,导致检索结果不佳。一种常用的解决该问题的方法是对查询进行处理,使查询更好的表达用户的意图。目前,在搜索引擎中比较常用的查询处理方法有相关反馈和查询重构及自动查询扩展技术,而自动查询扩展技术按照使用到的文档集不同,又可分为局部分析方法和全局分析的扩展方法作为较早出现的具有实际应用价值的查询扩展方法,全局分析方法得到了广泛的应用。传统的全局分析方法在提取扩展词时,没有充分考虑到扩展词间的间接关系,这势必会影响到检索性能。本文提出了一种基于Markov团的信息检索扩展模型,本文使用到了基于团的提取算法,团结构描述了Markov网络中多个词之间构成团的深层次关系。在计算相似度时,本文利用到了Markov网络的性质进一步表示了词间的间接关系,提高了检索性能。本文首先通过计算词间相似度构造Markov网络模型;然后由此模型加强候选词集中词相关性描述,并提取了在Markov网络中词间的团结构;最后通过在查询中加入查询词所在团中的其他候选词进行查询扩展。在5个常用的标准测试集ADI、CRAM、MED、CISI和CRAN文档集上的实验表明基于Markov多步转移相似性的信息检索模型的检索效果优于基于一般的相似性矩阵查询扩展的检索效果;基于团提取方法的查询扩展的检索效果优于普通的基于提取方法的查询扩展检索效果。
|
全文目录
摘要 3-4 ABSTRACT 4-7 1 绪论 7-11 1.1 研究背景 7-9 1.2 本文工作 9-10 1.3 论文组织 10-11 2 信息检索和查询扩展综述 11-25 2.1 信息检索的过程 11-20 2.1.1 信息的采集和加工 12-13 2.1.2 常用的信息检索模型 13-18 2.1.3 性能的评价 18-20 2.2 自动查询扩展技术 20-25 2.2.1 查询扩展的全局分析方法 20-22 2.2.2 查询扩展的局部分析方法 22-24 2.2.3 基于词典库的查询扩展 24-25 3 基于Markov 团的信息检索扩展模型 25-33 3.1 模型的提出 25-26 3.2 基于Markov 团的信息检索扩展模型 26-33 3.2.1 Markov 网络 26-27 3.2.2 基于马尔科夫网络的词相关性计算 27-28 3.2.3 基于团的提取方法 28-30 3.2.4 扩展的检索方法 30-33 4 实验 33-48 4.1 测试数据集 33-34 4.2 预处理 34 4.3 实验设计及参数调整 34-41 4.3.1 词与之间的相似度阈值θ的选择 34-35 4.3.2 检索模型中使用到的团个数s 选择 35 4.3.3 扩展的检索方法中用到的权重参数β的选择 35 4.3.4 转移概率矩阵权重系数λ的选择 35-39 4.3.5 最优随机游走步数 K 的选择 39-41 4.4 实验结果与分析 41-48 5 总结与展望 48-50 5.1 总结 48-49 5.2 未来工作展望 49-50 参考文献 50-53 简历 53-54 致谢 54
|
相似论文
- 循环流化床内颗粒聚团的传热特性研究,TK124
- 生物医学领域检索系统查询扩展技术研究,TP391.3
- 面向海量邮件的检索系统研究与实现,TP393.098
- 钯催化的烯烃双官能团化和吲哚三氟甲基化反应研究,O643.32
- 中华校园团购网营销策略研究,F274
- 周期性饥饿再投喂对团头鲂和建鲤生长性能、体组成、消化酶及抗氧化酶的影响,S917.4
- 高速逆流色谱在天然产物分离制备中的探索性研究(Ⅱ),R284
- 基于跨语言信息检索的企业竞争情报收集系统模型研究,TP391.3
- 我国网络团购诚信管理对策的研究,F203
- 新疆兵团新型团场小城镇发展的研究,F299.27
- WnC0,±(n=1-6)团簇的密度泛函理论研究,O641.1
- (OsnN)0, ±(n=1-6)团簇结构与性能的理论研究,O641.1
- 活性炭高选择性净化医用一氧化氮中二氧化氮的特性研究,TQ126.24
- 本科生课外学习融入性研究,G642
- 基于稀疏非负矩阵分解的图像检索,TP391.41
- 基于概率图模型的态势估计,E917
- 从魔幻现实主义到女性主义,I561.074
- 英汉跨语言问答系统中的文档语义检索,TP391.1
- 基于概率的潜在语义分析模型在搜索引擎商业文本分类系统中的应用研究,TP391.1
- 基于Web的医学文献数据库的设计与实现,TP311.13
- 基于语义Web的信息检索技术研究,TP391.3
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 检索机
© 2012 www.xueweilunwen.com
|