学位论文 > 优秀研究生学位论文题录展示

面向动态文档集的大规模文本索引构建技术的研究

作 者: 葛付江
导 师: 王宇颖
学 校: 哈尔滨工业大学
专 业: 计算机科学与技术
关键词: 动态文档集 索引构建 索引合并、在线索引
分类号: TP391.3
类 型: 硕士论文
年 份: 2008年
下 载: 34次
引 用: 0次
阅 读: 论文下载
 

内容摘要


动态文档集环境中,索引的组织方式需要在检索效率和更新效率上进行调节与折衷。为了提高索引效率,索引的索引项数据用拉链方式分块存放,但会降低检索效率;反之亦然。索引模型的设计往往围绕索引和检索效率的平衡;传统索引模型中为了优先保证检索效率,将索引更新的实时性放在一个次要的位置,但文本检索系统应用环境的日益多样化,对检索的实时性提出了新的要求。本文研究大规模文本在线索引的构造方法,在动态文档集环境中,系统在构建倒排索引的同时提供检索服务,动态文档集中的文档更新可以及时在索引库中同步更新;通过索引维护策略的研究和对比,本文设计了一个优化的索引模型,在保证检索效率的前提下,使索引系统的实时性有了很大提高;提出了一种基于完全树的在线索引构建方法,利用完全树的特征控制索引合并过程,以减少索引合并代价,同时可以调节索引和检索的性能平衡,与以前方法相比,具有更高的性能和更好的规模可扩展性,并在理论和实验中验证了这种索引维护方法的高效性。以此索引模型实现的系统为平台,进行了索引与检索的效率平衡、检索性能预测的相关实验,研究索引和检索这两个指标在动态文档集中的平衡关系,对比了几种检索性能预测方法的效果和效率,通过对检索前查询预测机制的分析,为系统在检索模型上的扩展提供了实验分析和平台。

全文目录


摘要  4-5
Abstract  5-8
第1章 绪论  8-16
  1.1 课题研究的背景和意义  8-9
  1.2 研究现状及成果  9-13
  1.3 发展趋势  13
  1.4 本文的主要研究内容及组织方式  13-16
第2章 面向动态文档集的索引模型  16-30
  2.1 索引结构  17-19
    2.1.1 索引组织方法  17-18
    2.1.2 索引结构  18-19
  2.2 系统流程及框架  19-27
  2.3 关键问题分析  27-29
  2.4 本章小结  29-30
第3章 在线索引的构建  30-49
  3.1 索引构建机制  30-37
    3.1.1 索引项的选择和内部表示  32-33
    3.1.2 数字索引项的处理  33
    3.1.3 分词效率及词典扩展性  33-34
    3.1.4 内存索引结构  34-35
    3.1.5 加锁机制  35
    3.1.6 压缩  35-37
  3.2 动态文档索引  37-45
    3.2.1 动态索引机制  37-40
    3.2.2 高效索引合并机制  40-45
  3.3 词典维护  45-48
    3.3.1 切分方法  45-48
    3.3.2 效率分析  48
  3.4 本章小结  48-49
第4章 面向动态环境的实时检索  49-60
  4.1 检索模型  49-53
  4.2 分布式检索  53-55
    4.2.1 分布式检索的数据集划分  53-54
    4.2.2 分布式检索实现方式  54-55
    4.2.3 分布式检索性能分析  55
  4.3 查询性能分析  55-58
    4.3.1 查询性能预测  55-57
    4.3.2 查询性能预测方法分析  57-58
  4.4 本章小结  58-60
第5章 索引与检索性能评价  60-67
  5.1 系统性能验证  60-61
    5.1.1 测试环境  60
    5.1.2 效率测试  60-61
  5.2 索引与检索性能平衡  61-66
  5.3 本章小结  66-67
结论  67-68
参考文献  68-72
附录1 索引文件格式  72-75
致谢  75

相似论文

  1. 动态全文索引系统关键技术研究,TP391.3
  2. 索引构建与搜索算法的研究与实现,TP391.3
  3. 基于FPGA的数字图像处理基本算法研究与实现,TP391.41
  4. 用于检索的人脸特征提取与匹配算法研究,TP391.41
  5. 基于FPGA的高速图像预处理技术的研究,TP391.41
  6. 2D人脸模板保护算法研究,TP391.41
  7. 导弹虚拟试验可视化技术研究,TP391.9
  8. 基于用户兴趣特征的图像检索研究与实现,TP391.41
  9. 图像拼接技术研究,TP391.41
  10. 高效精确字符串匹配算法的研究与实现,TP391.41
  11. 基于词义及语义分析的问答技术研究,TP391.1
  12. 基于三维重建的焊点质量分类方法研究,TP391.41
  13. 舌体特征的提取及融合分类方法研究,TP391.41
  14. 统计机器翻译中结构转换技术的研究,TP391.2
  15. 基于人眼检测的驾驶员疲劳状态识别技术,TP391.41
  16. 基于句法特征的代词消解方法研究,TP391.1
  17. 空中目标与背景的红外图像仿真技术研究,TP391.41
  18. 基于EPC C1G2协议的超高频RFID系统设计及仿真,TP391.44
  19. 基于智能学习的多传感器目标识别与跟踪系统研究,TP391.41
  20. 基于TMS320C6713的SPIHT图像压缩算法研究及实现,TP391.41
  21. 双传感器图像联合目标检测及系统实现研究,TP391.41

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 检索机
© 2012 www.xueweilunwen.com