学位论文 > 优秀研究生学位论文题录展示
DWMS列存储中执行引擎的优化与实现
作 者: 张琦
导 师: 乐嘉锦
学 校: 东华大学
专 业: 计算机软件与理论
关键词: 数据仓库 列存储 查询执行 优化
分类号: TP311.13
类 型: 硕士论文
年 份: 2012年
下 载: 35次
引 用: 0次
阅 读: 论文下载
内容摘要
高效的查询执行效率是数据仓库管理系统开发时最大的关注点。最近的研究表明,底层数据以列存储的方式进行组织,能够更好地适应数据仓库管理系统面向查询的特征,能够在执行过程中避免抽取查询所不需要的列值,引起多余的I/O开销。除此之外,列存储还拥有比行存储更高的压缩比。论文研究了数据仓库技术、列存储技术,查询执行引擎中的核心模块。结合数据仓库列存储的特征,对现有的查询执行引擎进行了结构与策略两个方面的优化与实现,其中结构方面包括传递块结构的优化与实现以及操作结点的优化与实现,而在策略方面则设计并实现了基于操作结点相对位置的重用度估计模型以及基于该模型的重用缓冲区调度策略。本文研究内容如下:1.论文首先分析了数据仓库以及列存储的特征,着重讨论了MonetDB、C-Store及InfoBright的存储方式与查询执行方式,并总结它们的特征与不足之处。2.然后,论文对列存储查询执行引擎中的核心元素进行了详细地介绍,其中包括查询执行的基本对象——物理执行树,物理执行树的构成单元——操作结点、查询执行时数据在内存中的组织形式以及能够完成数据处理与传递的迭代器及其网络。3.接着,论文对现有列存储查询执行引擎进行了结构方面的优化,其中包括对传递块的结构以及操作结点内部结构的优化设计与实现。对传递块结构的优化主要包括设计并实现了不仅能够存储rowid以及不同类型列值,还能够通过位置关系实现低开销快速元组重构的传递块结构。而对操作结点内部结构的优化主要包括1)以工厂模式的方式进行操作结点开发从而减少重复判断;2)利用数据有序的特性进行谓词选择预判以减少多余判断;3)改进哈希连接结点使其能够灵活适应事实表与维表的位置变换;4)改进传统排序连接操作使其能利用数据仓库中数据有序以及事实表与维表连接的特征;5)设计并实现了同时适用于定长列值与变长列值的列值抽取方法;6)设计并实现了能够灵活适应19种情况的打印操作结点;7)根据“将数组放入函数”的原则对执行引擎进行了整体优化。同时,论文对现有列存储查询执行引擎还进行了策略方面的优化设计与实现,主要包括1)提出并实现了基于操作结点在物理执行树中相对位置的重用度估计模型;2)根据模型的估计结果设计并实现了重用缓冲区调度策略并对其进行了优化。通过多个基于SSB数据集的实验验证了本文提出的优化方法的有效性。最后,论文对数据仓库管理系统列存储查询执行引擎的实现与优化现状进行了总结,并对下一步的研究工作进行了展望。
|
全文目录
摘要 5-7 ABSTRACT 7-11 第1章 绪论 11-16 1.1 研究背景及意义 11-12 1.2 研究现状 12-14 1.3 研究内容 14 1.4 本文组织结构 14-16 第2章 相关技术研究 16-22 2.1 数据仓库技术 16-18 2.2 列存储技术 18 2.3 查询执行引擎相关技术 18-21 2.4 SSB数据集 21 2.5 本章小结 21-22 第3章 查询执行引擎设计 22-30 3.1 物理执行树 22-23 3.2 操作结点设计 23-26 3.3 传递块 26-27 3.4 迭代器执行策略 27-28 3.5 本章小结 28-30 第4章 查询执行引擎结构优化 30-55 4.1 传递块结构优化 30-34 4.2 操作结点优化 34-54 4.3 本章小结 54-55 第5章 查询执行引擎策略优化 55-63 5.1 重用度估计模型 55-56 5.2 重用缓冲区调度策略 56-59 5.3 实验验证 59-62 5.4 本章小结 62-63 第6章 总结与展望 63-65 6.1 总结 63-64 6.2 展望 64-65 参考文献 65-68 攻读学位期间的研究成果目录 68-69 致谢 69
|
相似论文
- 超声波钎焊填缝及钎缝优化工艺研究,TG454
- 曲拉精制干酪素褐变因素及工艺优化研究,TS252.5
- 压气机优化平台建立与跨音速压气机气动优化设计,TH45
- 常温低温组合密封结构的有限元分析与优化设计,TH136
- 涡轮S2流面正问题气动优化设计研究,V235.11
- 基于蚁群算法的电梯群优化控制研究,TU857
- 中心回燃式燃烧室燃烧特性研究,TK223.21
- 内置式高效永磁同步电机的设计研究,TM341
- 内点法在大型电力系统无功优化中的应用研究,TM714.3
- 轴向磁通感应子式高温超导电机的基础研究,TM37
- AVS视频解码器在PC平台上的优化及场解码的改善,TN919.81
- 多重ANN/HMM混合模型在语音识别中的应用,TN912.34
- AES算法及其DSP实现,TN918.1
- 多层卫星网络稳定性设计研究,TN927.23
- 电视制导系统中视频图像压缩优化设计及实现研究,TN919.81
- 海量多数据库集成系统的查询处理研究,TP311.13
- 海量数据压缩、操作和处理方法的研究,TP311.13
- 米曲霉FS-1脂肪酶发酵优化、分离纯化与酶学特性的研究,TQ925.6
- 大红山铁矿井下人员跟踪定位系统的优化研究,TN929.5
- 基于粒子群算法求曲线/曲面间最小距离方法,O182
- 番禺区初中语文新诗教学现状及其优化策略,G633.3
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机软件 > 程序设计、软件工程 > 程序设计 > 数据库理论与系统
© 2012 www.xueweilunwen.com
|