学位论文 > 优秀研究生学位论文题录展示
基于单汉字索引的全文检索系统的研究与实现
作 者: 席敏
导 师: 杨世勇
学 校: 西安电子科技大学
专 业: 计算机系统结构
关键词: 地情信息 全文检索 单汉字索引 倒排文件
分类号: TP391.3
类 型: 硕士论文
年 份: 2010年
下 载: 21次
引 用: 2次
阅 读: 论文下载
内容摘要
全文检索技术是现代信息检索技术的一个非常重要的分支,它是处理非结构化数据的强大工具。全文检索的一个重要应用就是办公自动化领域,随着我国办公自动化进程的加速,人们对全文检索的需求剧增。本文针对现有全文检索技术进行了分析,特别是对基于分词和基于单字的不同全文检索算法进行了比较,分析了各自的优缺点和实现的难点,针对地情信息这一专业领域的特点,提出了一种有效的基于单汉字索引的倒排文件存储结构及其检索方法,使查全率达到100%。应用上,本文设计和实现了地情信息中心基础数据库系统,针对PDF文档创建字索引和检索机制,并且定位关键字到页面的具体位置,高亮显示关键字。根据实际需要,本文设计实现了二次索引,一次索引是将关键字定位到包含该关键字的PDF文档,二次索引是将关键字定位到页面的具体坐标位置。
|
全文目录
摘要 3-4 Abstract 4-7 第一章 绪论 7-11 1.1 课题研究背景 7 1.2 研究现状 7-9 1.3 本文研究内容和章节安排 9-11 1.3.1 本文研究内容 9 1.3.2 论文章节安排 9-11 第二章 相关理论和关键技术 11-23 2.1 全文检索技术 11-13 2.1.1 全文检索的技术原理 11-12 2.1.2 全文检索的分类 12-13 2.2 全文索引技术 13-16 2.2.1 倒排文档(inverted files) 13-14 2.2.2 标签文档(signature files) 14-15 2.2.3 PAT数组(PAT array) 15-16 2.3 中文全文检索技术 16-21 2.3.1 基于单汉字的全文检索 16-18 2.3.2 基于分词的全文检索 18-20 2.3.3 两种中文全文检索的比较 20-21 2.4 全文检索模型 21-23 2.4.1 布尔检索模型 21-22 2.4.2 概率推理模型 22 2.4.3 向量空间模型 22-23 第三章 系统结构分析设计 23-33 3.1 系统概念 23-24 3.1.1 地情信息项目说明 23 3.1.2 系统功能需求 23-24 3.2 系统结构 24-25 3.3 单汉字索引的存储结构设计 25-28 3.3.1 汉字编码 25-26 3.3.2 字表结构 26-27 3.3.3 字索引的倒排文件存储结构 27-28 3.4 数据库设计 28-33 3.4.1 MYSQL数据库介绍 28-30 3.4.2 数据库的设计 30-33 第四章 全文检索系统实现 33-57 4.1 LUCENE技术 33-39 4.1.1 lucene系统结构分析 33-37 4.1.2 lucene索引文件格式分析 37-39 4.2 PDFBox API 39-45 4.2.1 PDF格式 39-44 4.2.2 PDFBox API 44-45 4.3 一次索引的建立与检索 45-48 4.3.1 一次索引的建立 45-46 4.3.2 一次检索的实现 46-48 4.4 二次索引的建立与检索 48-54 4.4.1 二次索引的建立 48-51 4.4.2 二次检索的实现 51-54 4.5 实验分析 54-57 4.5.1 平台及开发环境 54-55 4.5.2 性能测试及分析 55-57 第五章 总结与展望 57-59 5.1 完成的主要工作 57 5.2 进一步研究方向 57-59 致谢 59-61 参考文献 61-65 研究成果 65
|
相似论文
- 网络智能答疑系统的研究与实现,TP393.09
- 仿真资源云存储技术的研究与实现,TP333
- 数据库全文检索方法研究及其应用,TP311.13
- 企业短信互动系统设计及实现关键技术研究,TN929.53
- 基于语义的金融企业非结构化信息检索系统研究,TP391.3
- 海量数据存储与全文检索,TP333
- 基于Ajax/Lucene的站内搜索技术研究与实现,TP393.092
- 安徽电力数字图书馆系统开发与应用,TP311.52
- 汉英跨语言网址搜索引擎的设计与实现,TP391.3
- 城市地理信息检索服务研究,P208
- 基于lucene中文全文检索系统的研究与实现,G354
- 基于Lucene的网页抓取与检索系统,TP393.092
- 面向中医药的多元语义搜索引擎,TP391.3
- 多文档全文检索系统的设计与开发,TP391.3
- 基于Lucene的二次全文检索系统设计与实现,TP391.3
- 专利全文检索系统的设计与实现,TP391.3
- 广域网环境下多数据源联合检索子系统的设计与实现,TP393.2
- 基于Lucene的毕业论文库全文检索系统的设计与实现,TP391.3
- 电子商务海量数据的获取、存储以及检索,TP274
- 基于JAVA+LUCENE+HERITRIX的WEB垂直搜索引擎技术研究与实现,TP391.3
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 检索机
© 2012 www.xueweilunwen.com
|