学位论文 > 优秀研究生学位论文题录展示
生物医学领域检索系统查询扩展技术研究
作 者: 陈宏杰
导 师: 王晓龙;林磊
学 校: 哈尔滨工业大学
专 业: 计算机科学与技术
关键词: 基因学项目 文本检索会议 信息检索 查询扩展 相关反馈
分类号: TP391.3
类 型: 硕士论文
年 份: 2008年
下 载: 33次
引 用: 0次
阅 读: 论文下载
内容摘要
随着计算技术和生物技术的进步,当前生物医学相关的文献正在以前所未有的速度增长。著名的MEDLINE数据库已经收集了自1965年以来的近1100万篇的生物医学相关文献,并且以每天1500篇的速度在增长。这些文献中蕴含了大量的知识。研究人员可以利用不同文献中的研究成果,来寻找疾病和基因之间的关系、基因和不同生命功能以及不同基因之间的关系等非常有用的知识。这些知识应用于实际,可以更好地诊断、预防和治疗人类的疾病。但是,人工从海量的文献中发现这些知识几乎是一件不可能的任务。因此,针对海量的生物医药文献的信息检索系统成为相关研究人员的迫切需求。2003年,TREC基因学方面的项目应运而生。本文研究的基础就是TREC 2007年的基因学项目。因此本文首先对TREC做了简要的介绍,并详细介绍了TREC Genomics Track 2007数据源、主题以及评测提交形式。然后讨论和分析了当前主要的信息检索模型,以及本文介绍的生物医药领域检索系统中搭建检索模块用到的Indri工具包。在检索过程中考虑到查询中所使用的术语可能与文档集中使用的术语不匹配而导致一些相关的文档不能被成功地检索出来,影响检索效果,本文提出了两个查询扩展的方法——正规化的同义词查询扩展方法和基于查询结果反馈的查询扩展方法。最后描述了生物医学领域检索系统的整体设计、实现和测试结果。本文重点讨论并实现了以下两个方面的内容:信息检索模型,查询扩展技术。利用以上技术,本文初步实现了生物医学领域检索系统。为了考察本系统的性能以及查询扩展方法对于系统性能的影响,文本设计了相应的实验。实验表明,查询扩展方法对系统的性能会有积极的影响,其中正规化的同义词查询扩展方法相对系统baseline在Document MAP、Aspect MAP、Passage MAP分别提高4.5%、3.4%、2.3%;而基于查询结果反馈的实体查询扩展方法相对系统baseline在Document MAP、Aspect MAP、Passage MAP分别提高19.1%、20.5%、15.8%,其中Document MAP达到0.3445,在参与TREC Genomics Track 2007系统评测的小组的评测结果中排在了第一位。
|
全文目录
摘要 4-5 Abstract 5-10 第1章 绪论 10-20 1.1 课题研究的背景 10 1.2 TREC概述 10-14 1.2.1 TREC的研究目标 11 1.2.2 TREC的主要任务 11-12 1.2.3 TREC的研究内容 12-14 1.3 TREC Genomics Track 14-18 1.3.1 TREC 基因学项目选用的资源 14 1.3.2 TREC基因学研究项目的主要内容 14-15 1.3.3 TREC Genomics Track 2007 15-18 1.4 本文研究的主要内容 18 1.5 本文组织结构 18-20 第2章 信息检索模型 20-33 2.1 信息检索相关概念 20-21 2.2 信息检索的评价 21-23 2.3 检索模型 23-28 2.3.1 布尔模型 24-25 2.3.2 向量空间模型 25-26 2.3.3 概率模型 26 2.3.4 统计自然语言模型 26-28 2.4 Indri系统的检索模型 28-32 2.5 本章小结 32-33 第3章 查询扩展 33-45 3.1 基于用户相关反馈的查询扩展 33-37 3.1.1 向量空间模型的查询扩展和词语重新加权 34-35 3.1.2 概率模型的词语重新加权 35-37 3.2 基于局部分析的查询扩展 37-40 3.2.1 通过局部聚类的查询扩展 37-39 3.2.2 通过局部上下文分析的查询扩展 39-40 3.3 基于全局分析的查询扩展 40-42 3.3.1 基于相似词典的查询扩展 40-41 3.3.2 基于统计词典的查询扩展 41-42 3.4 生物医药领域检索系统查询扩展 42-44 3.4.1 正规化的同义词查询扩展方法 42-44 3.4.2 基于查询结果反馈后的实体查询扩展 44 3.5 本章小结 44-45 第4章 生物医学领域检索系统的设计和实现 45-60 4.1 检索系统的搭建 45-46 4.2 实验数据的预处理 46-47 4.3 索引的建立 47-54 4.3.1 Indri系统的历史 47-48 4.3.2 Indri系统索引和检索示意图 48-49 4.3.3 Indri参数文件 49-51 4.3.4 Indri所能处理的文件格式 51-54 4.3.5 索引建立 54 4.4 查询扩展模块 54-59 4.4.1 用于实体类型识别的工具 55-57 4.4.2 正规化的同义词查询扩展方法 57-58 4.4.3 基于查询结果反馈后的实体查询扩展 58-59 4.5 本章小结 59-60 第5章 系统测试 60-72 5.1 评测方法 60-61 5.2 实验结果与分析 61-71 5.2.1 未经查询扩展的系统评测 61-64 5.2.2 经过正规化的同义词扩展后的系统评测 64-68 5.2.3 经过基于查询结果反馈的实体查询扩展后的系统评测 68-71 5.3 本章小结 71-72 结论 72-74 参考文献 74-79 致谢 79
|
相似论文
- Q学习在基于内容图像检索技术中的应用,TP391.41
- 直推式支持向量机研究及其在图像检索中的应用,TP391.41
- 面向海量邮件的检索系统研究与实现,TP393.098
- 网络搜索引擎的相关技术研究,G354
- 基于跨语言信息检索的企业竞争情报收集系统模型研究,TP391.3
- 基于策略Agent的个性化信息检索系统的研究与实现,TP391.3
- 基于稀疏非负矩阵分解的图像检索,TP391.41
- 跨语言文本分类的研究,TP391.1
- 基于分类模型监测电子商务违禁信息的研究与实现,TP393.09
- 排序学习损失函数的研究,TP181
- 微博客话题追踪及实时检索的相关研究,TP393.092
- 基于点击的用户聚类的研究,TP311.13
- 英汉跨语言问答系统中的文档语义检索,TP391.1
- 基于概率的潜在语义分析模型在搜索引擎商业文本分类系统中的应用研究,TP391.1
- 基于Web的医学文献数据库的设计与实现,TP311.13
- 基于语义Web的信息检索技术研究,TP391.3
- 强化学习和相关反馈在口腔正畸图像检索中的应用,TP391.41
- 基于OWL的地名本体构建与检索机制研究,P208
- 面向地名本体服务的空间信息检索研究,P208
- 基于内容与链接的页面价值算法研究,TP393.092
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 检索机
© 2012 www.xueweilunwen.com
|