学位论文 > 优秀研究生学位论文题录展示

大规模中文文本检索中的高性能索引研究

作 者: 米嘉
导 师: 王斌
学 校: 中国科学院研究生院(计算技术研究所)
专 业: 计算机应用技术
关键词: 倒排文件 索引 流水线 分词 双数组Trie树
分类号: TP391.3
类 型: 硕士论文
年 份: 2005年
下 载: 329次
引 用: 2次
阅 读: 论文下载
 

内容摘要


随着互联网上信息的不断增长和日益更新,检索系统,特别是中文文本检索系统,正在受到人们越来越多的关注。索引是检索系统必不可少的组成部分,是检索系统提供快速查询服务的关键。倒排文件是大规模检索系统最常用的索引形式。然而,通常情况下,索引的构建,即倒排文件的生成,是一个非常耗时的过程。为了适应大规模的文本检索任务,有必要研究加快构建索引的手段。通过对索引过程的各个阶段进行分析,本文指出,通常的索引算法效率不高的主要原因有二:1)CPU和I/O部件相互等待,使得系统资源的利用率不高;2)文档分析阶段是整个索引过程中的瓶颈,特别的,对中文文本而言,分词是主要的开销之一。针对第一个问题,本文在串行的索引流程中引入流水线结构,提高了资源部件的并行程度,进而缩短倒排文件的生成时间;在此基础上,文中还比较了流水线结构在不同参数下的性能差异。针对第二个问题,可以采用优化的词典结构,以加快中文的分词速度,从而达到减少分析阶段时间开销的目的;在比较了几种常见的词典结构之后,文中指出,基于双数组Trie树的词典结构是加快索引速度的有效手段。实验表明,综合使用以上两种方法,可以使索引的速度提高25%。具体的,我们对中文TXT文件的最快索引速度可达2.5M字节/秒。

全文目录


声 明  2
论文版权使用授权书  2-3
摘要  3-4
ABSTRACT  4-7
图目录  7-8
表目录  8-9
引言  9-13
  1.1 索引的结构  9-11
  1.2 本文的主题  11-12
  1.3 内容的安排  12-13
第二章 索引流程简介  13-23
  2.1 索引算法简介  13-15
  2.2 基于排序的算法  15-21
    2.2.1 文档分析  15-17
    2.2.2 全局词典  17-20
    2.2.3 索引合并  20-21
  2.3 本章小结  21-23
第三章 索引开销分析  23-33
  3.1 索引流程的实现  23-24
  3.2 索引的性能测试  24-31
    3.2.1 资源的利用率  25-27
    3.2.2 阶段开销分析  27-31
  3.3 本章小结  31-33
第四章 并行索引研究  33-47
  4.1 流水线技术  33-34
  4.2 流水线性能分析  34-37
  4.3 流水线性能测试  37-44
    4.3.1 资源的利用率  37-40
    4.3.2 串/并行的对比  40-43
    4.3.3 其它对比实验  43-44
  4.4 本章小结  44-47
第五章 索引中的分词  47-59
  5.1 分词技术简介  47-50
  5.2 词典实现机制  50-55
  5.3 词典性能比较  55-58
  5.4 本章小结  58-59
第六章 检索系统简介  59-63
  6.1 系统的结构  59
  6.2 系统的特色  59-63
第七章 总结与展望  63-65
  7.1 总结  63
  7.2 展望  63-65
参考文献  65-67
致谢  67-68
作者简历  68

相似论文

  1. 支持XML数据查询的F&B索引结构的研究,TP311.13
  2. 大规模稀疏关系数据索引技术研究,TP311.132.3
  3. 面向动态文档集的大规模文本索引构建技术的研究,TP391.3
  4. 面向海量邮件的检索系统研究与实现,TP393.098
  5. 处理器TI DSP VC33虚拟核的设计与实现,TP332
  6. Bicluster数据分析软件设计与实现,TP311.52
  7. 虹膜识别算法的研究与实现,TP391.41
  8. 基于条件随机场的中文分词技术的研究与实现,TP391.1
  9. 基于SMP的内存数据库查询处理优化研究,TP311.13
  10. 数据空间下的索引策略研究,TP311.13
  11. 低成本RFID系统安全协议研究,TP391.44
  12. 抗内部存储单元失效的32位微处理器的研究与实现,TP333
  13. 存储系统中多维元数据索引的高效更新方法研究,TP333
  14. 基于P2P的空间矢量数据快速索引机制的研究,TP391.3
  15. 大规模图像检索中局部特征聚合与索引方法研究,TP391.3
  16. 主观题自动评分技术研究,TP391.1
  17. 基于熵的音乐声纹检索算法的研究与实现,TP391.3
  18. 情景应对模式下数字化应急预案的语义模型研究,TP391.1
  19. 基于TOC的混合流水线调度方法,F273
  20. 面向专利领域的中文文本分类与检索方法研究,TP391.1
  21. 基于WEB的社区智能医疗服务系统的研究,TP311.52

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 检索机
© 2012 www.xueweilunwen.com