学位论文 > 优秀研究生学位论文题录展示

基于单汉字索引的全文检索系统的研究与实现

作 者: 席敏
导 师: 杨世勇
学 校: 西安电子科技大学
专 业: 计算机系统结构
关键词: 地情信息 全文检索 单汉字索引 倒排文件
分类号: TP391.3
类 型: 硕士论文
年 份: 2010年
下 载: 21次
引 用: 2次
阅 读: 论文下载
 

内容摘要


全文检索技术是现代信息检索技术的一个非常重要的分支,它是处理非结构化数据的强大工具。全文检索的一个重要应用就是办公自动化领域,随着我国办公自动化进程的加速,人们对全文检索的需求剧增。本文针对现有全文检索技术进行了分析,特别是对基于分词和基于单字的不同全文检索算法进行了比较,分析了各自的优缺点和实现的难点,针对地情信息这一专业领域的特点,提出了一种有效的基于单汉字索引倒排文件存储结构及其检索方法,使查全率达到100%。应用上,本文设计和实现了地情信息中心基础数据库系统,针对PDF文档创建字索引和检索机制,并且定位关键字到页面的具体位置,高亮显示关键字。根据实际需要,本文设计实现了二次索引,一次索引是将关键字定位到包含该关键字的PDF文档,二次索引是将关键字定位到页面的具体坐标位置。

全文目录


摘要  3-4
Abstract  4-7
第一章 绪论  7-11
  1.1 课题研究背景  7
  1.2 研究现状  7-9
  1.3 本文研究内容和章节安排  9-11
    1.3.1 本文研究内容  9
    1.3.2 论文章节安排  9-11
第二章 相关理论和关键技术  11-23
  2.1 全文检索技术  11-13
    2.1.1 全文检索的技术原理  11-12
    2.1.2 全文检索的分类  12-13
  2.2 全文索引技术  13-16
    2.2.1 倒排文档(inverted files)  13-14
    2.2.2 标签文档(signature files)  14-15
    2.2.3 PAT数组(PAT array)  15-16
  2.3 中文全文检索技术  16-21
    2.3.1 基于单汉字的全文检索  16-18
    2.3.2 基于分词的全文检索  18-20
    2.3.3 两种中文全文检索的比较  20-21
  2.4 全文检索模型  21-23
    2.4.1 布尔检索模型  21-22
    2.4.2 概率推理模型  22
    2.4.3 向量空间模型  22-23
第三章 系统结构分析设计  23-33
  3.1 系统概念  23-24
    3.1.1 地情信息项目说明  23
    3.1.2 系统功能需求  23-24
  3.2 系统结构  24-25
  3.3 单汉字索引的存储结构设计  25-28
    3.3.1 汉字编码  25-26
    3.3.2 字表结构  26-27
    3.3.3 字索引的倒排文件存储结构  27-28
  3.4 数据库设计  28-33
    3.4.1 MYSQL数据库介绍  28-30
    3.4.2 数据库的设计  30-33
第四章 全文检索系统实现  33-57
  4.1 LUCENE技术  33-39
    4.1.1 lucene系统结构分析  33-37
    4.1.2 lucene索引文件格式分析  37-39
  4.2 PDFBox API  39-45
    4.2.1 PDF格式  39-44
    4.2.2 PDFBox API  44-45
  4.3 一次索引的建立与检索  45-48
    4.3.1 一次索引的建立  45-46
    4.3.2 一次检索的实现  46-48
  4.4 二次索引的建立与检索  48-54
    4.4.1 二次索引的建立  48-51
    4.4.2 二次检索的实现  51-54
  4.5 实验分析  54-57
    4.5.1 平台及开发环境  54-55
    4.5.2 性能测试及分析  55-57
第五章 总结与展望  57-59
  5.1 完成的主要工作  57
  5.2 进一步研究方向  57-59
致谢  59-61
参考文献  61-65
研究成果  65

相似论文

  1. 网络智能答疑系统的研究与实现,TP393.09
  2. 仿真资源云存储技术的研究与实现,TP333
  3. 数据库全文检索方法研究及其应用,TP311.13
  4. 企业短信互动系统设计及实现关键技术研究,TN929.53
  5. 基于语义的金融企业非结构化信息检索系统研究,TP391.3
  6. 海量数据存储与全文检索,TP333
  7. 基于Ajax/Lucene的站内搜索技术研究与实现,TP393.092
  8. 安徽电力数字图书馆系统开发与应用,TP311.52
  9. 汉英跨语言网址搜索引擎的设计与实现,TP391.3
  10. 城市地理信息检索服务研究,P208
  11. 基于lucene中文全文检索系统的研究与实现,G354
  12. 基于Lucene的网页抓取与检索系统,TP393.092
  13. 面向中医药的多元语义搜索引擎,TP391.3
  14. 多文档全文检索系统的设计与开发,TP391.3
  15. 基于Lucene的二次全文检索系统设计与实现,TP391.3
  16. 专利全文检索系统的设计与实现,TP391.3
  17. 广域网环境下多数据源联合检索子系统的设计与实现,TP393.2
  18. 基于Lucene的毕业论文库全文检索系统的设计与实现,TP391.3
  19. 电子商务海量数据的获取、存储以及检索,TP274
  20. 基于JAVA+LUCENE+HERITRIX的WEB垂直搜索引擎技术研究与实现,TP391.3

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 检索机
© 2012 www.xueweilunwen.com