学位论文 > 优秀研究生学位论文题录展示
专业搜索引擎索引技术的研究与实现
作 者: 江毅铭
导 师: 山岚
学 校: 北京化工大学
专 业: 计算机应用技术
关键词: 索引器 全文检索 倒排索引 Lucene
分类号: TP391.3
类 型: 硕士论文
年 份: 2005年
下 载: 691次
引 用: 19次
阅 读: 论文下载
内容摘要
随着Internet和www的迅速发展,Internet上的资源日趋丰富,基于Internet的各类信息检索服务应运而生并得到了迅速发展。Google、Yahoo等综合型搜索引擎功能虽然非常强大,但是当使用它们来检索某些特定专业的信息时,综合型搜索引擎系统就有些力不从心。为了满足特定专业科学研究的需求,有必要开发针对特定专业的信息检索系统。 本文首先通过对全文检索中的正排表、倒排表,以及倒排表的字表法、词表法的研究与实践,深入了解全文检索索引的构建使用;接下来通过对Apache全文检索系统Lucene源码的剖析和实践,理解Lucene的系统组织结构、基本数据类型、索引内存结构以及索引数据库的文件结构;在对Lucene重要类UML类图进行分析后,深刻理解其索引过程以及索引方式,掌握了索引权重的控制和索引优化的方法。在此基础上,利用Lucene API函数,设计了索引器的批量索引方法与增量索引方法,实现了化工专业搜索引擎系统中索引器部分。在设计和开发的过程中,严格按照软件工程代码重用的要求重用了Lucene的
|
全文目录
摘要 3-5 ABSTRACT 5-9 第一章 绪论 9-14 1.1 课题背景 9 1.2 课题内容 9-10 1.3 搜索引擎概述 10-14 1.3.1 搜索引擎的概念 10 1.3.2 建立搜索引擎的关键技术 10-12 1.3.3 搜索引擎的性能指标 12 1.3.4 搜索引擎存在的不足 12-14 第二章 搜索引擎中索引的组织 14-26 2.1 全文检索中索引文件的组织 14-22 2.1.1 概述 14 2.1.2 全文检索在搜索引擎中的重要性 14-15 2.1.3 全文检索中索引的组织方法——正排表与倒排表 15-16 2.1.4 倒排表的组织——字表与词表 16-19 2.1.5 字表检索系统基本设计 19-22 2.2 Google索引技术的探究 22-26 2.2.1 Google技术总况 22 2.2.2 Google索引入库模块 22-24 2.2.3 Google索引及其过程 24-26 第三章 系统概述 26-38 3.1 索引器工作的基本思想 26-28 3.2 全文检索包Lucene的研究 28-38 3.2.1 Lucene系统的结构组织 28-30 3.2.2 Lucene基本数据类型 30-31 3.2.3 索引的概念结构 31-32 3.2.4 索引文件的格式描述 32-38 第四章 系统的设计与实现 38-68 4.1 系统总体结构 38-39 4.2 索引模块数据流图 39-42 4.2.1 索引操作数据流图 39-41 4.2.2 索引构建逻辑的数据流 41-42 4.3 索引过程的分析与实践 42-50 4.3.1 建立Index的过程 42-46 4.3.2 索引权重的控制 46-47 4.3.3 利用IndexWriter变量对建立索引进行高级管理 47-48 4.3.4 利用RAMDirectory充分发挥内存的优势 48-49 4.3.5 索引优化(Optimize)的作用 49-50 4.4 索引库的实现 50-57 4.4.1 批量索引(BatchIndex) 50-55 4.4.2 增量索引(Incrementallndex) 55-57 4.5 UML类图分析 57-68 4.5.1 项(Term) 57-59 4.5.2 域(Field) 59-61 4.5.3 文档(Document) 61-63 4.5.4 段(segment) 63-66 4.5.5 IndexReader类与IndexWirter类 66-68 第五章 运行结果与性能分析 68-70 第六章 总结 70-72 6.1 己完成的工作 70-71 6.2 待研究的内容 71-72 参考文献 72-75 附录1 75-77 附录2 77-79 致谢 79-80 攻读学位期间发表学术论文 80
|
相似论文
- 基于MVC设计模式的网络服务平台的研究与实现,TP311.52
- 网络智能答疑系统的研究与实现,TP393.09
- 仿真资源云存储技术的研究与实现,TP333
- 数据库全文检索方法研究及其应用,TP311.13
- 企业短信互动系统设计及实现关键技术研究,TN929.53
- 基于Hadoop的倒排索引技术的研究,TP391.3
- 基于接口匹配的语义Web服务发现方法研究,TP391.1
- 基于语义Web的信息检索技术研究,TP391.3
- 基于语义的金融企业非结构化信息检索系统研究,TP391.3
- 海量数据存储与全文检索,TP333
- 基于Ajax/Lucene的站内搜索技术研究与实现,TP393.092
- 垂直搜索引擎技术在网络舆情巡控中的研究与应用,TP391.3
- 安徽电力数字图书馆系统开发与应用,TP311.52
- 汉英跨语言网址搜索引擎的设计与实现,TP391.3
- 基于倒排索引的压缩算法性能研究,TP391.3
- 一个改进的中文分词算法及其在Lucene中的应用,TP391.1
- 分布式图片搜索引擎设计与实现,TP391.41
- 基于Lucene的汽车信息垂直搜索引擎的设计与实现,TP391.3
- 城市地理信息检索服务研究,P208
- 基于lucene中文全文检索系统的研究与实现,G354
- 基于Java的浙江纺织服装学院校园网搜索引擎,TP393.18
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 检索机
© 2012 www.xueweilunwen.com
|