学位论文 > 优秀研究生学位论文题录展示

压缩的列存储数据的查询优化研究与实现

作 者: 李海燕
导 师: 夏小玲
学 校: 东华大学
专 业: 计算机应用技术
关键词: 列存储 数据压缩 数据解压 查询优化
分类号: TP311.13
类 型: 硕士论文
年 份: 2011年
下 载: 82次
引 用: 0次
阅 读: 论文下载
 

内容摘要


传统的写优化数据库管理系统多数采用按行存储的方式,而对读优化的数据仓库管理系统而言,列存储表现出比行存储更加显著的性能。这是由于列存储技术是将数据表以列为单位进行存储,在查询中能有效避免读取无关的列,从而获得较高的查询效率。由于数据仓库中存储的信息量非常庞大,如何对这些庞大的数据进行有效的管理对数据仓库管理系统来说是一个巨大的挑战。解决这个问题的一个有效的方式就是采用数据压缩技术。因此,如何对压缩的列存储数据进行查询及优化的研究变得十分有意义。本文以东华-达梦数据库技术联合实验室“DWMS原型系统设计与实现”项目为背景,主要工作包括:1)对目前存在的一个基于字典的保留顺序的字符串压缩方法进行研究,在继续延用原方法中共用叶子的索引结构的同时,对原压缩方法进行了改进,提出了一个新的基于概率的字符串压缩方法,能快速的将字符串属性进行压缩和解压,降低了系统对压缩数据的查询时间。2)在列存储的数据经过压缩之后,对压缩数据上的查询策略进行了研究。首先将传统的代价模型进行修改,为了使其是基于压缩的,新增了数据压缩和解压的代价。然后针对必须要求解压的数据,研究如何合理的选择解压时机来进一步降低CPU消耗。最后给出了在压缩的数据上进行查询操作的一些具体算法,包括压缩数据的选择、连接和聚集操作。3)根据压缩的列存储数据的特点,并结合现有的数据库查询优化方法,提出了对压缩的数据进行查询的一些优化策略。为了便于对数据的快速检索和提高查询的速度,研究了索引结构和临时表的合理选择。然后对查询中经常存在的谓词和子查询进行了优化重写策略,最后给出了压缩数据上的选择和聚集操作的优化算法。4)采用本文提出的基于概率的保留顺序的字符串压缩方法对DWMS中的字符串属性进行压缩,对字符串的压缩效率进行了实验比较。然后将本文提出的一些查询优化策略应用于DWMS中经过压缩的数据,并对经过各种优化策略优化后的查询的执行时间进行了一系列实验测试。本文提出的基于概率的字符串压缩方法能快速的对字符串属性进解压,从整体上降低了系统的查询时间,达到了查询优化的目的。同时本文提出的一些优化策略使得查询可以直接在压缩数据上进行,无需解压,实现了压缩数据的查询优化。

全文目录


摘要  5-7
ABSTRACT  7-12
1 引言  12-20
  1.1 课题的研究目的和意义  12-13
  1.2 国内外研究现状  13-18
  1.3 本文的主要研究工作  18
  1.4 本文的组织结构  18-20
2 基于概率的保序字符串压缩算法  20-31
  2.1 基于概率的叶子  20-23
  2.2 基于概率的索引结构  23-28
  2.3 在列存储数据仓库中应用的例子  28-30
  2.4 数值型数据的压缩  30
  2.5 本章小结  30-31
3 压缩的列存储数据上的查询策略  31-44
  3.1 代价模型的修改  31-33
  3.2 解压时机的选择  33-35
  3.3 压缩数据上查询操作实现  35-42
  3.4 本章小结  42-44
4 压缩的列存储数据上的查询优化  44-59
  4.1 合理使用索引结构  44-46
  4.2 合理使用临时表  46-48
  4.3 优化谓词  48-53
  4.4 子查询优化  53-54
  4.5 聚集操作优化  54-56
  4.6 连接操作的优化  56-58
  4.7 本章小结  58-59
5 原型系统实现及实验  59-70
  5.1 DWMS系统  59-60
  5.2 基于概率的压缩算法的实验结果及分析  60-64
  5.3 对压缩数据进行查询优化的实验结果及分析  64-69
  5.4 本章小结  69-70
6 总结与展望  70-72
  6.1 总结  70-71
  6.2 展望  71-72
参考文献  72-76
攻读学位期间的研究成果目录  76-77
致谢  77

相似论文

  1. 海量多数据库集成系统的查询处理研究,TP311.13
  2. 海量数据压缩、操作和处理方法的研究,TP311.13
  3. 基于BAP的数据压缩、操作与查询处理系统的实现,TP311.13
  4. 广域网数据压缩算法的研究与实现,TP391.41
  5. 多核环境下内存数据库查询优化的研究,TP311.13
  6. DWMS中元数据以及缓冲区的设计和实现,TP311.13
  7. DWMS列存储中执行引擎的优化与实现,TP311.13
  8. 达梦嵌入式数据库的执行计划缓存研究,TP311.13
  9. 基于Shared Nothing机制的分布式数据访问层研究,TP311.13
  10. 面向非结构化数据查询优化的存储系统,TP333
  11. 达梦嵌入式数据库子查询的实现和扁平化,TP311.13
  12. RFID复杂事件实时查询处理及其优化策略,TP391.44
  13. 中文XML压缩技术研究,TP311.11
  14. 列存储数据仓库中的查询重写关键技术的研究与实现,TP311.13
  15. 卫星任务规划分布式协同平台流程设计及算法研究,TP751
  16. 基于社交网络好友关系的图查询算法研究与应用,TP391.3
  17. DNA序列数据压缩算法研究,TP311.13
  18. 多格式海量数据统一存取的效率优化,TP311.13
  19. 海量数据存储与全文检索,TP333
  20. 移动GIS中矢量数据压缩及传输问题研究,P208
  21. Huffman编码在环保实时监测系统中的研究与应用,TP274.4

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机软件 > 程序设计、软件工程 > 程序设计 > 数据库理论与系统
© 2012 www.xueweilunwen.com