学位论文 > 优秀研究生学位论文题录展示
基于固态硬盘的倒排索引动态更新策略及其优化研究
作 者: 汪红敏
导 师: 李瑞轩
学 校: 华中科技大学
专 业: 计算机应用技术
关键词: 全文检索 在线索引更新 固态硬盘 混合更新 半随机写
分类号: TP391.3
类 型: 硕士论文
年 份: 2013年
下 载: 3次
引 用: 0次
阅 读: 论文下载
内容摘要
全文检索系统所面对的数据集通常是不断增长的大量文本集,为了及时处理新增的文档以满足用户的实时检索需求,高效的在线倒排索引更新策略显得尤为重要。现有的倒排索引更新策略一般都是基于传统磁盘(Hard Disk Drive,简称HDD)的特性而设计的,相比高速的CPU,磁盘的低速I/O成为制约系统性能的主要瓶颈。新型存储设备固态硬盘(Solid State Disk,简称SSD)相对于机械磁盘HDD而言,最显著的优点就是其高速随机存取能力。如能正确使用SSD取代磁盘来存储全文检索系统的倒排索引数据,将使得系统的综合性能大大提升。然而SSD具有一些完全不同于HDD的特性,若直接采用现有的索引更新策略来维护SSD上的倒排索引,不仅不能充分发挥SSD的优势,还会影响其使用寿命。首先通过实验考察了现有的索引更新策略在SSD上的综合表现,分析了它们在SSD上的不适用性:单纯的原地更新策略产生过多的随机写;基于合并的方法则产生大量额外的、意义并不大的写操作,给SSD造成过多的负荷与损耗。在实验分析的结果之上,提出了设计适用于SSD的索引策略应遵循的原则。然后,设计了一种基于SSD的混合式索引更新策略。该策略充分利用SSD的高速随机读和较为高效的半随机写特性,将所有词条根据其倒排列表的长度分为长词和短词两大类,分别采取原地更新和不合并更新策略,既避免了效率低下的小数据随机写,又不产生合并导致的过多额外写操作。与以往方法相比,实验评估证明该策略具有很好的索引更新与检索性能,且对SSD的损耗大大减少。最后,为进一步提高策略的有效性,提出在执行多次原策略后,穿插执行一次优化策略:长词索引仍原地更新,短词索引则进行合并,同时让部分中长词索引驻留内存。实验表明,优化策略能够在保证系统索引更新效率不降低的前提下,使检索性能提升32.1%,同时并不会对SSD造成过多影响。
|
全文目录
摘要 4-5 Abstract 5-7 目录 7-9 1 绪论 9-25 1.1 课题研究背景和意义 9-11 1.2 国内外研究现状 11-22 1.3 论文研究内容 22-23 1.4 论文结构安排 23-25 2 现有倒排索引更新策略在 SSD 上的实验分析 25-34 2.1 实验环境与设计 25-26 2.2 写操作特性分析 26-28 2.3 写操作的数据量分析 28-30 2.4 索引与检索性能分析 30-33 2.5 本章小结 33-34 3 基于 SSD 的混合式索引更新策略 34-48 3.1 基本思想 34-36 3.2 混合式更新 36-37 3.3 内存索引的选择性部分写入 37-40 3.4 实验评估与分析 40-46 3.5 本章小结 46-48 4 基于 SSD 的混合式索引更新策略优化 48-57 4.1 问题概述 48-49 4.2 策略优化总体思想 49-51 4.3 策略优化算法描述 51-52 4.4 实验评估与分析 52-55 4.5 本章小结 55-57 5 总结与展望 57-59 5.1 论文工作总结 57-58 5.2 进一步研究方向 58-59 致谢 59-61 参考文献 61-65 附录 1 攻读硕士学位期间参与的科研项目 65-66 附录 2 攻读硕士学位期间取得的科研成果 66
|
相似论文
- 基于OAI-PMH协议及全文检索技术的图书馆联合目录系统,TP391.3
- 全文检索及相关技术研究,TP391.3
- LUCENE中文分词在科研文档全文检索系统的应用研究,TP311.52
- 基于闪存的浓缩数据立方存储研究,TP333
- PCI Express接口固态硬盘存储系统设计,TP333
- 一种提高固态硬盘随机写性能的cache策略,TP333
- 基于闪存的混合式存储系统研究,TP333
- 用于固态硬盘的DDR2控制器设计,TP273
- RAID中固态盘二级缓存机制研究与实现,TP333
- 网络智能答疑系统的研究与实现,TP393.09
- 仿真资源云存储技术的研究与实现,TP333
- 固态硬盘控制器磨损均衡算法研究,TP333.35
- FlashCache位运算替换算法的设计与实现,TP333
- 基于缓冲检测器的固态硬盘控制器的设计与仿真,TP333.35
- 海量数据存储与全文检索,TP333
- 城市地理信息检索服务研究,P208
- 固态硬盘存储管理与差错控制技术研究,TP333
- 电子商务海量数据的获取、存储以及检索,TP274
- 混合结构闪存索引研究,TP333.2
- 面向语言学研究的大规模汉语语料库全文检索技术与开发,H08
- 固态硬盘闪存控制设计与实现,TP333.35
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 检索机
© 2012 www.xueweilunwen.com
|