学位论文 > 优秀研究生学位论文题录展示
面向动态文档集的大规模文本索引构建技术的研究
作 者: 葛付江
导 师: 王宇颖
学 校: 哈尔滨工业大学
专 业: 计算机科学与技术
关键词: 动态文档集 索引构建 索引合并、在线索引
分类号: TP391.3
类 型: 硕士论文
年 份: 2008年
下 载: 34次
引 用: 0次
阅 读: 论文下载
内容摘要
在动态文档集环境中,索引的组织方式需要在检索效率和更新效率上进行调节与折衷。为了提高索引效率,索引的索引项数据用拉链方式分块存放,但会降低检索效率;反之亦然。索引模型的设计往往围绕索引和检索效率的平衡;传统索引模型中为了优先保证检索效率,将索引更新的实时性放在一个次要的位置,但文本检索系统应用环境的日益多样化,对检索的实时性提出了新的要求。本文研究大规模文本在线索引的构造方法,在动态文档集环境中,系统在构建倒排索引的同时提供检索服务,动态文档集中的文档更新可以及时在索引库中同步更新;通过索引维护策略的研究和对比,本文设计了一个优化的索引模型,在保证检索效率的前提下,使索引系统的实时性有了很大提高;提出了一种基于完全树的在线索引构建方法,利用完全树的特征控制索引合并过程,以减少索引合并代价,同时可以调节索引和检索的性能平衡,与以前方法相比,具有更高的性能和更好的规模可扩展性,并在理论和实验中验证了这种索引维护方法的高效性。以此索引模型实现的系统为平台,进行了索引与检索的效率平衡、检索性能预测的相关实验,研究索引和检索这两个指标在动态文档集中的平衡关系,对比了几种检索性能预测方法的效果和效率,通过对检索前查询预测机制的分析,为系统在检索模型上的扩展提供了实验分析和平台。
|
全文目录
摘要 4-5 Abstract 5-8 第1章 绪论 8-16 1.1 课题研究的背景和意义 8-9 1.2 研究现状及成果 9-13 1.3 发展趋势 13 1.4 本文的主要研究内容及组织方式 13-16 第2章 面向动态文档集的索引模型 16-30 2.1 索引结构 17-19 2.1.1 索引组织方法 17-18 2.1.2 索引结构 18-19 2.2 系统流程及框架 19-27 2.3 关键问题分析 27-29 2.4 本章小结 29-30 第3章 在线索引的构建 30-49 3.1 索引构建机制 30-37 3.1.1 索引项的选择和内部表示 32-33 3.1.2 数字索引项的处理 33 3.1.3 分词效率及词典扩展性 33-34 3.1.4 内存索引结构 34-35 3.1.5 加锁机制 35 3.1.6 压缩 35-37 3.2 动态文档索引 37-45 3.2.1 动态索引机制 37-40 3.2.2 高效索引合并机制 40-45 3.3 词典维护 45-48 3.3.1 切分方法 45-48 3.3.2 效率分析 48 3.4 本章小结 48-49 第4章 面向动态环境的实时检索 49-60 4.1 检索模型 49-53 4.2 分布式检索 53-55 4.2.1 分布式检索的数据集划分 53-54 4.2.2 分布式检索实现方式 54-55 4.2.3 分布式检索性能分析 55 4.3 查询性能分析 55-58 4.3.1 查询性能预测 55-57 4.3.2 查询性能预测方法分析 57-58 4.4 本章小结 58-60 第5章 索引与检索性能评价 60-67 5.1 系统性能验证 60-61 5.1.1 测试环境 60 5.1.2 效率测试 60-61 5.2 索引与检索性能平衡 61-66 5.3 本章小结 66-67 结论 67-68 参考文献 68-72 附录1 索引文件格式 72-75 致谢 75
|
相似论文
- 动态全文索引系统关键技术研究,TP391.3
- 索引构建与搜索算法的研究与实现,TP391.3
- 基于FPGA的数字图像处理基本算法研究与实现,TP391.41
- 用于检索的人脸特征提取与匹配算法研究,TP391.41
- 基于FPGA的高速图像预处理技术的研究,TP391.41
- 2D人脸模板保护算法研究,TP391.41
- 导弹虚拟试验可视化技术研究,TP391.9
- 基于用户兴趣特征的图像检索研究与实现,TP391.41
- 图像拼接技术研究,TP391.41
- 高效精确字符串匹配算法的研究与实现,TP391.41
- 基于词义及语义分析的问答技术研究,TP391.1
- 基于三维重建的焊点质量分类方法研究,TP391.41
- 舌体特征的提取及融合分类方法研究,TP391.41
- 统计机器翻译中结构转换技术的研究,TP391.2
- 基于人眼检测的驾驶员疲劳状态识别技术,TP391.41
- 基于句法特征的代词消解方法研究,TP391.1
- 空中目标与背景的红外图像仿真技术研究,TP391.41
- 基于EPC C1G2协议的超高频RFID系统设计及仿真,TP391.44
- 基于智能学习的多传感器目标识别与跟踪系统研究,TP391.41
- 基于TMS320C6713的SPIHT图像压缩算法研究及实现,TP391.41
- 双传感器图像联合目标检测及系统实现研究,TP391.41
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 检索机
© 2012 www.xueweilunwen.com
|