学位论文 > 优秀研究生学位论文题录展示

Lucene全文检索技术在专利服务平台中的研究与应用

作 者: 陈祥荣
导 师: 孙涌
学 校: 苏州大学
专 业: 计算机应用技术
关键词: 专利检索 Lucene 全文检索 中文分词 排序
分类号: TP391.3
类 型: 硕士论文
年 份: 2010年
下 载: 196次
引 用: 5次
阅 读: 论文下载
 

内容摘要


本文从生物医药专利信息服务平台的实际应用需求出发,在深入研究了Lucene全文检索工具包及相关技术基础之上,扩展了Lucene分词模块,改进了Lucene默认的排序算法,并扩展了Lucene的多格式文档处理模块,使本文设计的专利系统支持常用的多种专利文档格式的检索,并最终将以上研究应用于本文介绍的专利服务平台中,有效地改善了专利检索系统的性能。本文主要工作如下:(1)对Lucene全文检索工具包进行了深入研究,分析了各种常见格式文档处理技术的现状,着重研究了中文分词技术和Lucene的排序机制,为Lucene全文检索技术更好的在专利服务平台中的科学应用,提供了充分的理论依据;(2)针对专利文献特点及专利文献自动分词的难点,提出了一种基于规则和后缀数组相结合的自动分词方法,扩展了Lucene分词模块,实验证明该方法有效地提高了专利分词的查准率和查全率;(3)针对专利文献的特点,改进了传统的TF-IDF公式,提出了一种对位置信息进行加权来计算特征词权重的方法,对检索结果进行了自定义排序,实验证明该排序方法能很好地匹配更相关的文档;(4)为了能够让本文的专利检索系统既不局限于纯文本格式的检索,又不用将文档转换成中间格式,本文设计了一个通用的接口,借助第三方开发的解析工具对不同格式的专利文档(如PDF文档、WORD文档、HTML文档等)进行处理,将其转换成Lucene能够处理的格式,使本文设计的专利检索系统支持对多种格式专利文献的检索;(5)最后将Lucene全文检索技术应用于专利服务系统中,实验及实际使用证明本文实现的专利检索系统,在检索结果排序、查全率、查准率、响应时间等方面得到了有效地提高,极大的改善了专利检索系统的性能。

全文目录


中文摘要  4-5
Abstract  5-9
第一章 绪论  9-13
  1.1 选题背景与意义  9-10
  1.2 国内外研究应用现状  10-11
  1.3 本文主要研究内容  11
  1.4 本文的组织结构  11-13
第二章 LUCENE 全文检索工具包及相关技术研究  13-30
  2.1 LUCENE 全文检索工具包  13-21
    2.1.1 LUCENE 简介  13
    2.1.2 LUCENE 结构功能分析  13-15
    2.1.3 LUCENE 数据流分析  15-17
    2.1.4 LUCENE 索引结构  17-19
    2.1.5 LUCENE 的应用特点及优势  19-21
  2.2 各种常见格式文档处理技术  21
  2.3 中文分词技术  21-27
    2.3.1 中文分词的必要性  21-22
    2.3.2 现有分词方法研究  22-24
    2.3.3 中文自动分词的难点  24-26
    2.3.4 面向专利的自动分词目标  26-27
  2.4 检索结果排序  27-29
    2.4.1 LUCENE 检索机制  27-28
    2.4.2 LUCENE 的排序算法介绍  28-29
  2.5 本章小结  29-30
第三章 面向专利的中文自动分词技术的研究  30-40
  3.1 专利文献特点及自动分词的难点分析  30-31
  3.2 基于规则和后缀数组相结合的自动分词技术  31-37
    3.2.1 基于规则库的预切分方法  31-35
    3.2.2 基于后缀数组的专利词汇抽取方法  35-37
  3.3 实验结果及分析  37-39
    3.3.1 评测方法  37-38
    3.3.2 实验结果及分析  38-39
  3.4 本章小结  39-40
第四章 检索结果排序  40-45
  4.1 检索结果排序原理  40-41
  4.2 LUCENE 相关性因素  41-42
  4.3 自定义排序  42-44
    4.3.1 传统的TF-IDF 公式  42-43
    4.3.2 自定义排序公式  43-44
  4.4 本章小结  44-45
第五章 生物医药专利服务平台检索子系统设计与实现  45-61
  5.1 生物医药专利服务平台的简介  45-47
    5.1.1 平台开发运行环境  45
    5.1.2 服务平台介绍  45-47
  5.2 基于LUCENE 的专利信息检索子系统的设计与实现  47-56
    5.2.1 建立索引库过程  48-54
    5.2.2 信息查询处理  54-56
  5.3 系统运行效果及实验对比分析  56-60
    5.3.1 系统运行效果  56-57
    5.3.2 实验对比分析  57-60
  5.4 本章小结  60-61
第六章 总结与展望  61-63
  6.1 工作总结  61-62
  6.2 展望  62-63
参考文献  63-68
攻读学位期间发表的论文  68-69
致谢  69-70

相似论文

  1. 太原市草坪杂草群落生态与科学管理研究,S451
  2. 中条山麻栎群落数量生态研究,Q948
  3. 煤矿开采区植被退化定量监测与评价,Q948
  4. 旅游对芦芽山国家级自然保护区典型植被的影响,S759.9
  5. 网络搜索引擎的相关技术研究,G354
  6. 工件排序问题的若干研究,O157.5
  7. 面向主题的Web文档自动文摘生成方法研究,TP391.1
  8. 基于条件随机场的中文分词技术的研究与实现,TP391.1
  9. 基于MVC设计模式的网络服务平台的研究与实现,TP311.52
  10. 双层车库车辆调度辅助决策支持系统,TP242
  11. 主观题自动评分技术研究,TP391.1
  12. 粒子滤波算法的硬件优化设计,TN713
  13. 基于WebHarvest的中文财经新闻搜索引擎的设计与实现,TP311.52
  14. 基于GPU图像搜索中文本检索的关键技术研究,TP391.1
  15. 基于社会标注的主题分类及排序优化方法研究,TP391.1
  16. 网络智能答疑系统的研究与实现,TP393.09
  17. 仿真资源云存储技术的研究与实现,TP333
  18. 基于关联规则和图排序的句子情感倾向性研究,TP391.1
  19. 数据库全文检索方法研究及其应用,TP311.13
  20. 企业邮件监管系统的设计与实现,TP393.098
  21. 面向专利领域的中文文本分类与检索方法研究,TP391.1

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 检索机
© 2012 www.xueweilunwen.com