学位论文 > 优秀研究生学位论文题录展示

基于固态硬盘的倒排索引动态更新策略及其优化研究

作 者: 汪红敏
导 师: 李瑞轩
学 校: 华中科技大学
专 业: 计算机应用技术
关键词: 全文检索 在线索引更新 固态硬盘 混合更新 半随机写
分类号: TP391.3
类 型: 硕士论文
年 份: 2013年
下 载: 3次
引 用: 0次
阅 读: 论文下载
 

内容摘要


全文检索系统所面对的数据集通常是不断增长的大量文本集,为了及时处理新增的文档以满足用户的实时检索需求,高效的在线倒排索引更新策略显得尤为重要。现有的倒排索引更新策略一般都是基于传统磁盘(Hard Disk Drive,简称HDD)的特性而设计的,相比高速的CPU,磁盘的低速I/O成为制约系统性能的主要瓶颈。新型存储设备固态硬盘(Solid State Disk,简称SSD)相对于机械磁盘HDD而言,最显著的优点就是其高速随机存取能力。如能正确使用SSD取代磁盘来存储全文检索系统的倒排索引数据,将使得系统的综合性能大大提升。然而SSD具有一些完全不同于HDD的特性,若直接采用现有的索引更新策略来维护SSD上的倒排索引,不仅不能充分发挥SSD的优势,还会影响其使用寿命。首先通过实验考察了现有的索引更新策略在SSD上的综合表现,分析了它们在SSD上的不适用性:单纯的原地更新策略产生过多的随机写;基于合并的方法则产生大量额外的、意义并不大的写操作,给SSD造成过多的负荷与损耗。在实验分析的结果之上,提出了设计适用于SSD的索引策略应遵循的原则。然后,设计了一种基于SSD的混合式索引更新策略。该策略充分利用SSD的高速随机读和较为高效的半随机写特性,将所有词条根据其倒排列表的长度分为长词和短词两大类,分别采取原地更新和不合并更新策略,既避免了效率低下的小数据随机写,又不产生合并导致的过多额外写操作。与以往方法相比,实验评估证明该策略具有很好的索引更新与检索性能,且对SSD的损耗大大减少。最后,为进一步提高策略的有效性,提出在执行多次原策略后,穿插执行一次优化策略:长词索引仍原地更新,短词索引则进行合并,同时让部分中长词索引驻留内存。实验表明,优化策略能够在保证系统索引更新效率不降低的前提下,使检索性能提升32.1%,同时并不会对SSD造成过多影响。

全文目录


摘要  4-5
Abstract  5-7
目录  7-9
1 绪论  9-25
  1.1 课题研究背景和意义  9-11
  1.2 国内外研究现状  11-22
  1.3 论文研究内容  22-23
  1.4 论文结构安排  23-25
2 现有倒排索引更新策略在 SSD 上的实验分析  25-34
  2.1 实验环境与设计  25-26
  2.2 写操作特性分析  26-28
  2.3 写操作的数据量分析  28-30
  2.4 索引与检索性能分析  30-33
  2.5 本章小结  33-34
3 基于 SSD 的混合式索引更新策略  34-48
  3.1 基本思想  34-36
  3.2 混合式更新  36-37
  3.3 内存索引的选择性部分写入  37-40
  3.4 实验评估与分析  40-46
  3.5 本章小结  46-48
4 基于 SSD 的混合式索引更新策略优化  48-57
  4.1 问题概述  48-49
  4.2 策略优化总体思想  49-51
  4.3 策略优化算法描述  51-52
  4.4 实验评估与分析  52-55
  4.5 本章小结  55-57
5 总结与展望  57-59
  5.1 论文工作总结  57-58
  5.2 进一步研究方向  58-59
致谢  59-61
参考文献  61-65
附录 1 攻读硕士学位期间参与的科研项目  65-66
附录 2 攻读硕士学位期间取得的科研成果  66

相似论文

  1. 基于OAI-PMH协议及全文检索技术的图书馆联合目录系统,TP391.3
  2. 全文检索及相关技术研究,TP391.3
  3. LUCENE中文分词在科研文档全文检索系统的应用研究,TP311.52
  4. 基于闪存的浓缩数据立方存储研究,TP333
  5. PCI Express接口固态硬盘存储系统设计,TP333
  6. 一种提高固态硬盘随机写性能的cache策略,TP333
  7. 基于闪存的混合式存储系统研究,TP333
  8. 用于固态硬盘的DDR2控制器设计,TP273
  9. RAID中固态盘二级缓存机制研究与实现,TP333
  10. 网络智能答疑系统的研究与实现,TP393.09
  11. 仿真资源云存储技术的研究与实现,TP333
  12. 固态硬盘控制器磨损均衡算法研究,TP333.35
  13. FlashCache位运算替换算法的设计与实现,TP333
  14. 基于缓冲检测器的固态硬盘控制器的设计与仿真,TP333.35
  15. 海量数据存储与全文检索,TP333
  16. 城市地理信息检索服务研究,P208
  17. 固态硬盘存储管理与差错控制技术研究,TP333
  18. 电子商务海量数据的获取、存储以及检索,TP274
  19. 混合结构闪存索引研究,TP333.2
  20. 面向语言学研究的大规模汉语语料库全文检索技术与开发,H08
  21. 固态硬盘闪存控制设计与实现,TP333.35

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 检索机
© 2012 www.xueweilunwen.com