学位论文 > 优秀研究生学位论文题录展示

动态全文索引系统关键技术研究

作 者: 屈磊
导 师: 叶允明
学 校: 哈尔滨工业大学
专 业: 计算机科学与技术
关键词: 信息检索 倒排索引 索引更新 在线索引 动态文档集
分类号: TP391.3
类 型: 硕士论文
年 份: 2009年
下 载: 70次
引 用: 0次
阅 读: 论文下载
 

内容摘要


倒排索引是提高全文检索效率的重要技术,但是倒排索引的空间效率、动态性能、创建效率和检索效率一直是倒排索引面临的关键问题。本文正是围绕动态全文索引的构建合并、增量更新、压缩存储和查询检索等展开研究,以提高其索引检索的综合性能。本文对基于倒排索引的文件结构以及索引构建合并算法进行了研究,目标是建立与因特网海量信息相适应的动态即时索引文件,高效快捷实现索引检索查询。实现动态全文索引技术的难点,一是要提高压缩率,压缩倒排索引有助于提高查询的吞吐量;二是要兼顾动态性,这就需要考虑到索引的添加合并和删除更新带来的系统开销。本文在对倒排列表的动态特点分析基础上,发现文档ID和词的位置信息可使用d-gap编码后再采用变长压缩方法进行压缩,词频则可直接变长压缩,增加压缩比。这种混合编码的办法在压缩效率方面优于其他支持动态更新的编码。在对倒排索引文件结构进行深入的研究之后,确立了一种高效的索引文件结构,允许多个子索引同时存在,并在某一特定时间进行索引合并优化,实现高效增量地构建索引。实验表明,采用类哈夫曼树的动态合并策略可以得到更优的效果。在索引查询方面,提供了多种检索模型和查询方法。基于以上的研究成果,本文最后设计并实现了一个动态高效的全文索引实验原型系统,包括了常用文本数据解析、索引构建合并、索引查询应用等模块,为进行相关的算法实验和研究提供了一个基础平台,也为实际的开发应用提供了相关扩展接口。

全文目录


摘要  4-5
Abstract  5-10
第1章 绪论  10-18
  1.1 研究背景和意义  10-11
  1.2 国内外相关研究和综述  11-15
    1.2.1 国内外全文索引技术研究现状  12-14
    1.2.2 现有全文索引检索技术  14-15
  1.3 本文的主要研究内容  15-16
  1.4 本文的结构安排  16-18
第2章 全文索引技术相关基础知识  18-23
  2.1 引言  18
  2.2 全文索引结构  18
  2.3 全文索引分类  18-19
    2.3.1 按索引项的类型分类  18-19
    2.3.2 按索引管理方式分类  19
  2.4 全文索引过程  19-20
  2.5 相关数据结构  20-22
    2.5.1 索引文档  20-21
    2.5.2 索引域  21
    2.5.3 索引项  21
    2.5.4 索引桶  21-22
  2.6 本章小结  22-23
第3章 面向动态全文索引的文件系统设计  23-39
  3.1 引言  23
  3.2 动态索引文件系统设计  23-26
    3.2.1 倒排索引  23-24
    3.2.2 倒排索引的文件结构  24-25
    3.2.3 倒排索引的压缩存储  25-26
  3.3 动态索引文件系统实现  26-36
    3.3.1 动态索引文件设计  27-30
    3.3.2 动态索引文件分析  30-36
  3.4 实验与分析  36-38
    3.4.1 实验分析  37-38
    3.4.2 实验结论  38
  3.5 本章小结  38-39
第4章 动态全文索引构建合并算法研究  39-52
  4.1 引言  39
  4.2 动态增量索引构建与更新  39-43
    4.2.1 动态增量索引  39-40
    4.2.2 动态索引更新策略  40-42
    4.2.3 动态子索引布局  42-43
  4.3 基于动态平衡树的索引合并算法  43-48
    4.3.1 提高索引合并效率的两个条件  43-44
    4.3.2 动态平衡树的定义  44
    4.3.3 动态平衡树的索引合并方法  44-46
    4.3.4 基于DBT方法的索引合并实例  46-48
  4.4 实验与分析  48-51
    4.4.1 实验环境  48
    4.4.2 比较分析  48-51
    4.4.3 实验结论  51
  4.5 本章小结  51-52
第5章 动态全文索引系统实现  52-59
  5.1 系统设计与实现  52
    5.1.1 开发目的及意义  52
    5.1.2 开发平台及工具  52
  5.2 系统总体设计  52-54
  5.3 系统主要模块  54-57
    5.3.1 存储子系统  54
    5.3.2 索引子系统  54-55
    5.3.3 检索子系统  55-56
    5.3.4 索引合并算法库  56-57
  5.4 系统展示  57-58
    5.4.1 索引构建合并  57-58
    5.4.2 索引查询应用  58
  5.5 本章小结  58-59
结论  59-60
参考文献  60-64
致谢  64

相似论文

  1. 面向动态文档集的大规模文本索引构建技术的研究,TP391.3
  2. 生物医学领域检索系统查询扩展技术研究,TP391.3
  3. 基于跨语言信息检索的企业竞争情报收集系统模型研究,TP391.3
  4. 排序学习损失函数的研究,TP181
  5. 基于Hadoop的倒排索引技术的研究,TP391.3
  6. 基于接口匹配的语义Web服务发现方法研究,TP391.1
  7. 基于语义Web的信息检索技术研究,TP391.3
  8. 面向位置服务的轨迹数据时空索引技术研究,P208
  9. J2EE集成开发框架及其应用,TP311.52
  10. 基于移动搜索用户关联的信息检索研究,TP391.3
  11. 基于倒排索引的压缩算法性能研究,TP391.3
  12. 自适应教学科研信息推送服务模型研究,TP393.09
  13. 基于Lucene的网页抓取与检索系统,TP393.092
  14. 金融领域的博客信息采集与排序算法研究,TP393.092
  15. 移动垂直搜索系统的研究,TP391.3
  16. 基于内容的快速音频检索,TP391.3
  17. 基于Android的桌面搜索引擎的研究与实现,TP391.3
  18. 一种基于语义标注的个性化搜索技术的研究与实现,TP391.3
  19. 基于潜在语义分析的军事情报检索系统的研究与实现,TP391.3
  20. 私有信息检索及其应用的研究,TN918.1

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 检索机
© 2012 www.xueweilunwen.com