学位论文 > 优秀研究生学位论文题录展示
基于分布式多索引融合的专利信息检索研究
作 者: 朴红吉
导 师: 冯林
学 校: 大连理工大学
专 业: 计算机应用技术
关键词: 信息检索 融合模型 分布式计算
分类号: TP391.3
类 型: 硕士论文
年 份: 2010年
下 载: 87次
引 用: 0次
阅 读: 论文下载
内容摘要
信息检索在社会经济发展、人们日常生活中扮演着越来越重要的角色,专利信息的检索受到越来越广泛的关注和重视。然而,信息检索发展至今,在理论和应用上仍有许多不完善之处,与人们日益增长的对信息检索的需求相差较远。本文主要工作体现在分布式专利检索、索引池、信息融合等三方面。本文中文专利信息检索为研究背景,对中文专利检索相关理论和方法进行了研究。本文首先给出了基于分布式的专利信息检索方法,对分布式环境下索引建立、检索过程进行了讨论,这也是索引池研究的基础。对于海量数据挖掘中的信息检索问题,如何建立索引是一个重要的研究课题。本文提出了面向应用的索引池概念,对索引对检索结果的影响进行了讨论,并实现了基于Nutch索引池的一个应用。本文提出将现有的关键词检索方法与语义检索方法检索出的结果进行融合,提高一次查询的查全率。在融合过程中采用了结果集相关性调整的策略,使得相关专利在结果集中的位置得以提前,方便检索人员进行检索。本文主要研究内容如下:(1)对分布式环境下专利检索进行的研究,主要对专利信息的分布式爬取、分布式建立索引和分布式检索进行了研究和实现。(2)提出了面向具体应用的索引池的概念和索引池模型,并针对索引池模型,给出了索引评价方法。实现了基于Nutch的索引池搜索工具。基于Nutch,实现了在分布式环境下的爬虫、索引、检索一整套索引池应用,通过实验验证了索引池理论。(3)给出了一种信息融合的模型。针对中文专利检索的特点,设计了RSSI融合模型。该模型将基于关键词检索与基于语义检索的结果集进行融合,在融合策略上考虑到了不同结果集长度、相关性分值大小等条件,优化了最终的检索结果的查全率与平均查准率。
|
全文目录
摘要 4-5 Abstract 5-8 1 绪论 8-14 1.1 课题背景及意义 8-9 1.2 国内外研究现状 9-12 1.2.1 专利检索研究现状 9-10 1.2.2 搜索引擎研究现状 10-12 1.3 论文的工作内容 12-13 1.4 章节安排 13 1.5 本章小结 13-14 2 分布式专利检索 14-39 2.1 专利信息检索技术 14-20 2.1.1 专利基本概念 14-16 2.1.2 常用专利数据库 16-17 2.1.3 专利信息检索技术 17-20 2.2 开源分布式系统Hadoop简介 20-28 2.2.1 HDFS 22-23 2.2.2 MapReduce 23-28 2.3 开源全文信息检索工具Lucene简介 28-33 2.3.1 Lucene软件包 28-29 2.3.2 Lucene索引中存储的信息 29-30 2.3.3 利用Lucene创建索引 30-33 2.3.4 利用Lucene对索引进行搜索 33 2.4 开源搜索引擎Nutch简介 33-35 2.4.1 Nutch抓取网页和建立索引过程 34 2.4.2 Nutch抓取网页和建立索引过程的脚本实现 34-35 2.5 分布式专利检索系统实现 35-37 2.5.1 爬虫功能实现 36-37 2.5.2 检索服务功能实现 37 2.6 本章小结 37-39 3 索引池 39-48 3.1 池化技术简介 39-40 3.1.1 线程池 39 3.1.2 内存池 39 3.1.3 对象池 39-40 3.2 索引池概念 40-42 3.3 索引池模型 42-43 3.3.1 评估函数 42-43 3.3.2 更新/添加索引 43 3.3.3 删除索引 43 3.4 索引池系统实现 43-47 3.4.1 索引池系统环境 43 3.4.2 索引池系统模型及流程 43-44 3.4.3 索引池模块设计 44-46 3.4.4 索引池性模型的性能优势 46-47 3.5 本章小结 47-48 4 信息融合 48-58 4.1 信息融合技术 48-49 4.2 RSSI检索模型 49-52 4.2.1 RSSI检索模型 49-51 4.2.2 中文专利检索策略 51-52 4.3 实验结果测评 52-57 4.3.1 测评指标 53 4.3.2 实验结果 53 4.3.3 RSSI模型与单检索引擎的比较 53-56 4.3.4 RSSI模型与其它融合模型的比较 56-57 4.4 本章小结 57-58 结论 58-59 参考文献 59-63 攻读硕士学位期间发表学术论文情况 63-64 致谢 64-66
|
相似论文
- 生物医学领域检索系统查询扩展技术研究,TP391.3
- 面向海量邮件的检索系统研究与实现,TP393.098
- 基于跨语言信息检索的企业竞争情报收集系统模型研究,TP391.3
- 构建分布式系统的关键技术研究与实现,TP338.8
- 基于策略Agent的个性化信息检索系统的研究与实现,TP391.3
- 基于Linux平台的局域网云监控系统的分析与实现,TP311.52
- 基于稀疏非负矩阵分解的图像检索,TP391.41
- 跨语言文本分类的研究,TP391.1
- 基于分类模型监测电子商务违禁信息的研究与实现,TP393.09
- 排序学习损失函数的研究,TP181
- 基于点击的用户聚类的研究,TP311.13
- 基于MapReduce的分布式文本数据过滤技术研究与系统实现,TP391.1
- 英汉跨语言问答系统中的文档语义检索,TP391.1
- 基于概率的潜在语义分析模型在搜索引擎商业文本分类系统中的应用研究,TP391.1
- 基于Web的医学文献数据库的设计与实现,TP311.13
- 基于语义Web的信息检索技术研究,TP391.3
- 基于OWL的地名本体构建与检索机制研究,P208
- 面向地名本体服务的空间信息检索研究,P208
- 基于P2P技术的海量遥感数据快速处理技术研究,TP75
- 基于P2P的语义Web服务查找与组合模型研究,TP393.09
- 基于内容与链接的页面价值算法研究,TP393.092
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 检索机
© 2012 www.xueweilunwen.com
|