学位论文 > 优秀研究生学位论文题录展示
大规模中文文本检索中的高性能索引研究
作 者: 米嘉
导 师: 王斌
学 校: 中国科学院研究生院(计算技术研究所)
专 业: 计算机应用技术
关键词: 倒排文件 索引 流水线 分词 双数组Trie树
分类号: TP391.3
类 型: 硕士论文
年 份: 2005年
下 载: 329次
引 用: 2次
阅 读: 论文下载
内容摘要
随着互联网上信息的不断增长和日益更新,检索系统,特别是中文文本检索系统,正在受到人们越来越多的关注。索引是检索系统必不可少的组成部分,是检索系统提供快速查询服务的关键。倒排文件是大规模检索系统最常用的索引形式。然而,通常情况下,索引的构建,即倒排文件的生成,是一个非常耗时的过程。为了适应大规模的文本检索任务,有必要研究加快构建索引的手段。通过对索引过程的各个阶段进行分析,本文指出,通常的索引算法效率不高的主要原因有二:1)CPU和I/O部件相互等待,使得系统资源的利用率不高;2)文档分析阶段是整个索引过程中的瓶颈,特别的,对中文文本而言,分词是主要的开销之一。针对第一个问题,本文在串行的索引流程中引入流水线结构,提高了资源部件的并行程度,进而缩短倒排文件的生成时间;在此基础上,文中还比较了流水线结构在不同参数下的性能差异。针对第二个问题,可以采用优化的词典结构,以加快中文的分词速度,从而达到减少分析阶段时间开销的目的;在比较了几种常见的词典结构之后,文中指出,基于双数组Trie树的词典结构是加快索引速度的有效手段。实验表明,综合使用以上两种方法,可以使索引的速度提高25%。具体的,我们对中文TXT文件的最快索引速度可达2.5M字节/秒。
|
全文目录
声 明 2 论文版权使用授权书 2-3 摘要 3-4 ABSTRACT 4-7 图目录 7-8 表目录 8-9 引言 9-13 1.1 索引的结构 9-11 1.2 本文的主题 11-12 1.3 内容的安排 12-13 第二章 索引流程简介 13-23 2.1 索引算法简介 13-15 2.2 基于排序的算法 15-21 2.2.1 文档分析 15-17 2.2.2 全局词典 17-20 2.2.3 索引合并 20-21 2.3 本章小结 21-23 第三章 索引开销分析 23-33 3.1 索引流程的实现 23-24 3.2 索引的性能测试 24-31 3.2.1 资源的利用率 25-27 3.2.2 阶段开销分析 27-31 3.3 本章小结 31-33 第四章 并行索引研究 33-47 4.1 流水线技术 33-34 4.2 流水线性能分析 34-37 4.3 流水线性能测试 37-44 4.3.1 资源的利用率 37-40 4.3.2 串/并行的对比 40-43 4.3.3 其它对比实验 43-44 4.4 本章小结 44-47 第五章 索引中的分词 47-59 5.1 分词技术简介 47-50 5.2 词典实现机制 50-55 5.3 词典性能比较 55-58 5.4 本章小结 58-59 第六章 检索系统简介 59-63 6.1 系统的结构 59 6.2 系统的特色 59-63 第七章 总结与展望 63-65 7.1 总结 63 7.2 展望 63-65 参考文献 65-67 致谢 67-68 作者简历 68
|
相似论文
- 支持XML数据查询的F&B索引结构的研究,TP311.13
- 大规模稀疏关系数据索引技术研究,TP311.132.3
- 面向动态文档集的大规模文本索引构建技术的研究,TP391.3
- 面向海量邮件的检索系统研究与实现,TP393.098
- 处理器TI DSP VC33虚拟核的设计与实现,TP332
- Bicluster数据分析软件设计与实现,TP311.52
- 虹膜识别算法的研究与实现,TP391.41
- 基于条件随机场的中文分词技术的研究与实现,TP391.1
- 基于SMP的内存数据库查询处理优化研究,TP311.13
- 数据空间下的索引策略研究,TP311.13
- 低成本RFID系统安全协议研究,TP391.44
- 抗内部存储单元失效的32位微处理器的研究与实现,TP333
- 存储系统中多维元数据索引的高效更新方法研究,TP333
- 基于P2P的空间矢量数据快速索引机制的研究,TP391.3
- 大规模图像检索中局部特征聚合与索引方法研究,TP391.3
- 主观题自动评分技术研究,TP391.1
- 基于熵的音乐声纹检索算法的研究与实现,TP391.3
- 情景应对模式下数字化应急预案的语义模型研究,TP391.1
- 基于TOC的混合流水线调度方法,F273
- 面向专利领域的中文文本分类与检索方法研究,TP391.1
- 基于WEB的社区智能医疗服务系统的研究,TP311.52
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 检索机
© 2012 www.xueweilunwen.com
|