学位论文 > 优秀研究生学位论文题录展示
中文全文检索系统中索引的研究
作 者: 赵会杰
导 师: 于剑
学 校: 北京交通大学
专 业: 计算机应用技术
关键词: 倒排表 中文全文检索 索引器 索引压缩
分类号: TP391.3
类 型: 硕士论文
年 份: 2007年
下 载: 406次
引 用: 0次
阅 读: 论文下载
内容摘要
中文全文检索系统是信息产业中发展较快的一个领域,而一个中文检索系统的核心就是索引器,本文介绍了索引器构造的不同算法模型,对相关的技术进行了比较,分析了各自的优缺点和实现难点,提出了一种中文全文检索中索引实现的数据结构和新型的算法模型。 本文首先综述了中文全文检索中索引构造的相关技术,主要包括索引文件数据结构、索引单位选取和索引压缩算法。 在上述综述的基础上,本文采用了基于单字的倒排表文件格式和可变字节编码压缩技术实现了整个索引系统。该系统包括三方面的功能分别是:文本预处理、索引创建和索引更新。 在文本预处理部分实现了中文、外文和特殊字符的分离, 同时实现了停止词(stop word)的删除。 在索引创建部分本文首先给出了一种基于传统倒排表的索引创建算法——合并排序式索引创建算法,该算法需要源文本10倍大小的临时空间。为了解决合并排序式索引创建算法临时空间过大的问题,本文提出了一种新的索引创建方案,该方案采用分级的倒排表索引组织结构和链式顺序混合存储的方式。它不仅不需要额外的临时空间,而且还提高了索引创建的效率。在索引创建的过程中本系统采用了可变字节编码压缩技术对索引进行压缩,实验表明该压缩算法将索引文件大小减少了20—30%。 在索引更新部分本文提出了三种顺序存储方式下准动态的索引更新策略,一种链式存储格式下索引动态更新的算法。该系统采用的链式存储结构下的索引更新算法复杂度达到了O(n)。
|
全文目录
中文摘要 5-6 ABSTRACT 6-10 1 引言 10-13 1.1 研究背景 10-11 1.2 索引在中文检索中的位置及研究现状 11-12 1.3 本文论文安排 12-13 2 中文全文检索中的索引器的结构和功能 13-14 2.1 全文检索索引器的结构 13 2.2 全文检索索引器的基本功能 13-14 3 中文全文检索索引器构造相关技术综述 14-35 3.1 索引数据结构及其相关原理 14-20 3.1.1 正排表的数据结构和其工作原理 14 3.1.2 倒排表的数据结构和工作原理 14-16 3.1.3 互关联后继树模型 16-19 3.1.4 几种索引存储结构的比较 19-20 3.2 基于单字的索引器构造 20-23 3.2.1 单字索引数据结构 20-21 3.2.2 单字索引的创建方法 21-22 3.2.3 优化的基于单字索引创建方法 22-23 3.3 基于词表的索引器构造 23-28 3.3.1 词表索引数据结构 23-24 3.3.2 一种词表索引创建流程 24 3.3.3 常用分词技术的研究 24-28 3.4 几种压缩技术的研究 28-35 3.4.1 按位紧凑压缩法 28-30 3.4.2 可变字节编码(variable Byte Coding) 30-32 3.4.3 Elias Gamma coding 32-33 3.4.4 Golomb coding 33 3.4.5 Binary Interpolative Coding(二进制插入编码) 33-35 4 中文全文检索系统的索引器设计实例分析 35-54 4.1 总体设计 35-36 4.2 文本预处理 36 4.3 索引创建 36-47 4.3.1 索引组织结构形式 36-37 4.3.2 索引的创建方法 37-44 4.3.3 改进的索引结构及其构建算法 44-47 4.4 索引的维护 47-51 4.4.1 准动态全文索引更新 47-48 4.4.2 顺序式存储索引更新 48-50 4.4.3 链式存储索引更新 50-51 4.5 索引压缩 51-54 5 系统性能测试结果 54-57 5.1 索引压缩结果 54-55 5.2 改进倒排表索引创建及更新效率 55-57 6 结论 57-58 参考文献 58-61 学位论文数据集 61
|
相似论文
- 基于倒排索引的压缩算法性能研究,TP391.3
- 相似字符串匹配过滤算法研究,TP391.1
- 面向网页去重的特征提取与重复模式发现,TP393.092
- 半结构化数据索引技术的研究,TP311.13
- 面向动态文本的在线索引若干问题研究,TP391.1
- 基于全文检索的企业资源搜索系统,TP391.3
- 垂直搜索引擎关键技术研究及应用,TP391.3
- 网络数学搜索中的数学查询语言与索引的研究,TP391.3
- 基于内容的教学资源搜索引擎研究,TP391.3
- 专业搜索引擎索引技术的研究与实现,TP391.3
- 基于全文检索的自动答疑系统的研究与设计,TP311.52
- 网页排重技术研究及应用,TP393.092
- 基于web的XML中文检索模型的研究与实现,TP391.3
- 迅雷资源搜索引擎的研究与实现,TP391.3
- 风险主题搜索引擎相关技术的研究与应用,TP391.3
- 频繁模式挖掘相关技术研究,TP311.13
- 基于FPGA的数字图像处理基本算法研究与实现,TP391.41
- 用于检索的人脸特征提取与匹配算法研究,TP391.41
- 基于FPGA的高速图像预处理技术的研究,TP391.41
- 2D人脸模板保护算法研究,TP391.41
- 导弹虚拟试验可视化技术研究,TP391.9
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 检索机
© 2012 www.xueweilunwen.com
|