学位论文 > 优秀研究生学位论文题录展示

专业搜索引擎索引技术的研究与实现

作 者: 江毅铭
导 师: 山岚
学 校: 北京化工大学
专 业: 计算机应用技术
关键词: 索引器 全文检索 倒排索引 Lucene
分类号: TP391.3
类 型: 硕士论文
年 份: 2005年
下 载: 691次
引 用: 19次
阅 读: 论文下载
 

内容摘要


随着Internet和www的迅速发展,Internet上的资源日趋丰富,基于Internet的各类信息检索服务应运而生并得到了迅速发展。Google、Yahoo等综合型搜索引擎功能虽然非常强大,但是当使用它们来检索某些特定专业的信息时,综合型搜索引擎系统就有些力不从心。为了满足特定专业科学研究的需求,有必要开发针对特定专业的信息检索系统。 本文首先通过对全文检索中的正排表、倒排表,以及倒排表的字表法、词表法的研究与实践,深入了解全文检索索引的构建使用;接下来通过对Apache全文检索系统Lucene源码的剖析和实践,理解Lucene的系统组织结构、基本数据类型、索引内存结构以及索引数据库的文件结构;在对Lucene重要类UML类图进行分析后,深刻理解其索引过程以及索引方式,掌握了索引权重的控制和索引优化的方法。在此基础上,利用Lucene API函数,设计了索引器的批量索引方法与增量索引方法,实现了化工专业搜索引擎系统中索引器部分。在设计和开发的过程中,严格按照软件工程代码重用的要求重用了Lucene的

全文目录


摘要  3-5
ABSTRACT  5-9
第一章 绪论  9-14
  1.1 课题背景  9
  1.2 课题内容  9-10
  1.3 搜索引擎概述  10-14
    1.3.1 搜索引擎的概念  10
    1.3.2 建立搜索引擎的关键技术  10-12
    1.3.3 搜索引擎的性能指标  12
    1.3.4 搜索引擎存在的不足  12-14
第二章 搜索引擎中索引的组织  14-26
  2.1 全文检索中索引文件的组织  14-22
    2.1.1 概述  14
    2.1.2 全文检索在搜索引擎中的重要性  14-15
    2.1.3 全文检索中索引的组织方法——正排表与倒排表  15-16
    2.1.4 倒排表的组织——字表与词表  16-19
    2.1.5 字表检索系统基本设计  19-22
  2.2 Google索引技术的探究  22-26
    2.2.1 Google技术总况  22
    2.2.2 Google索引入库模块  22-24
    2.2.3 Google索引及其过程  24-26
第三章 系统概述  26-38
  3.1 索引器工作的基本思想  26-28
  3.2 全文检索包Lucene的研究  28-38
    3.2.1 Lucene系统的结构组织  28-30
    3.2.2 Lucene基本数据类型  30-31
    3.2.3 索引的概念结构  31-32
    3.2.4 索引文件的格式描述  32-38
第四章 系统的设计与实现  38-68
  4.1 系统总体结构  38-39
  4.2 索引模块数据流图  39-42
    4.2.1 索引操作数据流图  39-41
    4.2.2 索引构建逻辑的数据流  41-42
  4.3 索引过程的分析与实践  42-50
    4.3.1 建立Index的过程  42-46
    4.3.2 索引权重的控制  46-47
    4.3.3 利用IndexWriter变量对建立索引进行高级管理  47-48
    4.3.4 利用RAMDirectory充分发挥内存的优势  48-49
    4.3.5 索引优化(Optimize)的作用  49-50
  4.4 索引库的实现  50-57
    4.4.1 批量索引(BatchIndex)  50-55
    4.4.2 增量索引(Incrementallndex)  55-57
  4.5 UML类图分析  57-68
    4.5.1 项(Term)  57-59
    4.5.2 域(Field)  59-61
    4.5.3 文档(Document)  61-63
    4.5.4 段(segment)  63-66
    4.5.5 IndexReader类与IndexWirter类  66-68
第五章 运行结果与性能分析  68-70
第六章 总结  70-72
  6.1 己完成的工作  70-71
  6.2 待研究的内容  71-72
参考文献  72-75
附录1  75-77
附录2  77-79
致谢  79-80
攻读学位期间发表学术论文  80

相似论文

  1. 基于MVC设计模式的网络服务平台的研究与实现,TP311.52
  2. 网络智能答疑系统的研究与实现,TP393.09
  3. 仿真资源云存储技术的研究与实现,TP333
  4. 数据库全文检索方法研究及其应用,TP311.13
  5. 企业短信互动系统设计及实现关键技术研究,TN929.53
  6. 基于Hadoop的倒排索引技术的研究,TP391.3
  7. 基于接口匹配的语义Web服务发现方法研究,TP391.1
  8. 基于语义Web的信息检索技术研究,TP391.3
  9. 基于语义的金融企业非结构化信息检索系统研究,TP391.3
  10. 海量数据存储与全文检索,TP333
  11. 基于Ajax/Lucene的站内搜索技术研究与实现,TP393.092
  12. 垂直搜索引擎技术在网络舆情巡控中的研究与应用,TP391.3
  13. 安徽电力数字图书馆系统开发与应用,TP311.52
  14. 汉英跨语言网址搜索引擎的设计与实现,TP391.3
  15. 基于倒排索引的压缩算法性能研究,TP391.3
  16. 一个改进的中文分词算法及其在Lucene中的应用,TP391.1
  17. 分布式图片搜索引擎设计与实现,TP391.41
  18. 基于Lucene的汽车信息垂直搜索引擎的设计与实现,TP391.3
  19. 城市地理信息检索服务研究,P208
  20. 基于lucene中文全文检索系统的研究与实现,G354
  21. 基于Java的浙江纺织服装学院校园网搜索引擎,TP393.18

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 检索机
© 2012 www.xueweilunwen.com