学位论文 > 优秀研究生学位论文题录展示
动态全文索引系统关键技术研究
作 者: 屈磊
导 师: 叶允明
学 校: 哈尔滨工业大学
专 业: 计算机科学与技术
关键词: 信息检索 倒排索引 索引更新 在线索引 动态文档集
分类号: TP391.3
类 型: 硕士论文
年 份: 2009年
下 载: 70次
引 用: 0次
阅 读: 论文下载
内容摘要
倒排索引是提高全文检索效率的重要技术,但是倒排索引的空间效率、动态性能、创建效率和检索效率一直是倒排索引面临的关键问题。本文正是围绕动态全文索引的构建合并、增量更新、压缩存储和查询检索等展开研究,以提高其索引检索的综合性能。本文对基于倒排索引的文件结构以及索引构建合并算法进行了研究,目标是建立与因特网海量信息相适应的动态即时索引文件,高效快捷实现索引检索查询。实现动态全文索引技术的难点,一是要提高压缩率,压缩倒排索引有助于提高查询的吞吐量;二是要兼顾动态性,这就需要考虑到索引的添加合并和删除更新带来的系统开销。本文在对倒排列表的动态特点分析基础上,发现文档ID和词的位置信息可使用d-gap编码后再采用变长压缩方法进行压缩,词频则可直接变长压缩,增加压缩比。这种混合编码的办法在压缩效率方面优于其他支持动态更新的编码。在对倒排索引文件结构进行深入的研究之后,确立了一种高效的索引文件结构,允许多个子索引同时存在,并在某一特定时间进行索引合并优化,实现高效增量地构建索引。实验表明,采用类哈夫曼树的动态合并策略可以得到更优的效果。在索引查询方面,提供了多种检索模型和查询方法。基于以上的研究成果,本文最后设计并实现了一个动态高效的全文索引实验原型系统,包括了常用文本数据解析、索引构建合并、索引查询应用等模块,为进行相关的算法实验和研究提供了一个基础平台,也为实际的开发应用提供了相关扩展接口。
|
全文目录
摘要 4-5 Abstract 5-10 第1章 绪论 10-18 1.1 研究背景和意义 10-11 1.2 国内外相关研究和综述 11-15 1.2.1 国内外全文索引技术研究现状 12-14 1.2.2 现有全文索引检索技术 14-15 1.3 本文的主要研究内容 15-16 1.4 本文的结构安排 16-18 第2章 全文索引技术相关基础知识 18-23 2.1 引言 18 2.2 全文索引结构 18 2.3 全文索引分类 18-19 2.3.1 按索引项的类型分类 18-19 2.3.2 按索引管理方式分类 19 2.4 全文索引过程 19-20 2.5 相关数据结构 20-22 2.5.1 索引文档 20-21 2.5.2 索引域 21 2.5.3 索引项 21 2.5.4 索引桶 21-22 2.6 本章小结 22-23 第3章 面向动态全文索引的文件系统设计 23-39 3.1 引言 23 3.2 动态索引文件系统设计 23-26 3.2.1 倒排索引 23-24 3.2.2 倒排索引的文件结构 24-25 3.2.3 倒排索引的压缩存储 25-26 3.3 动态索引文件系统实现 26-36 3.3.1 动态索引文件设计 27-30 3.3.2 动态索引文件分析 30-36 3.4 实验与分析 36-38 3.4.1 实验分析 37-38 3.4.2 实验结论 38 3.5 本章小结 38-39 第4章 动态全文索引构建合并算法研究 39-52 4.1 引言 39 4.2 动态增量索引构建与更新 39-43 4.2.1 动态增量索引 39-40 4.2.2 动态索引更新策略 40-42 4.2.3 动态子索引布局 42-43 4.3 基于动态平衡树的索引合并算法 43-48 4.3.1 提高索引合并效率的两个条件 43-44 4.3.2 动态平衡树的定义 44 4.3.3 动态平衡树的索引合并方法 44-46 4.3.4 基于DBT方法的索引合并实例 46-48 4.4 实验与分析 48-51 4.4.1 实验环境 48 4.4.2 比较分析 48-51 4.4.3 实验结论 51 4.5 本章小结 51-52 第5章 动态全文索引系统实现 52-59 5.1 系统设计与实现 52 5.1.1 开发目的及意义 52 5.1.2 开发平台及工具 52 5.2 系统总体设计 52-54 5.3 系统主要模块 54-57 5.3.1 存储子系统 54 5.3.2 索引子系统 54-55 5.3.3 检索子系统 55-56 5.3.4 索引合并算法库 56-57 5.4 系统展示 57-58 5.4.1 索引构建合并 57-58 5.4.2 索引查询应用 58 5.5 本章小结 58-59 结论 59-60 参考文献 60-64 致谢 64
|
相似论文
- 面向动态文档集的大规模文本索引构建技术的研究,TP391.3
- 生物医学领域检索系统查询扩展技术研究,TP391.3
- 基于跨语言信息检索的企业竞争情报收集系统模型研究,TP391.3
- 排序学习损失函数的研究,TP181
- 基于Hadoop的倒排索引技术的研究,TP391.3
- 基于接口匹配的语义Web服务发现方法研究,TP391.1
- 基于语义Web的信息检索技术研究,TP391.3
- 面向位置服务的轨迹数据时空索引技术研究,P208
- J2EE集成开发框架及其应用,TP311.52
- 基于移动搜索用户关联的信息检索研究,TP391.3
- 基于倒排索引的压缩算法性能研究,TP391.3
- 自适应教学科研信息推送服务模型研究,TP393.09
- 基于Lucene的网页抓取与检索系统,TP393.092
- 金融领域的博客信息采集与排序算法研究,TP393.092
- 移动垂直搜索系统的研究,TP391.3
- 基于内容的快速音频检索,TP391.3
- 基于Android的桌面搜索引擎的研究与实现,TP391.3
- 一种基于语义标注的个性化搜索技术的研究与实现,TP391.3
- 基于潜在语义分析的军事情报检索系统的研究与实现,TP391.3
- 私有信息检索及其应用的研究,TN918.1
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 检索机
© 2012 www.xueweilunwen.com
|