学位论文 > 优秀研究生学位论文题录展示

海量数据压缩、操作和处理方法的研究

作 者: 张春鹤
导 师: 李建中
学 校: 哈尔滨工业大学
专 业: 计算机科学与技术
关键词: 海量数据 科学与统计数据库 压缩数据库 列存储
分类号: TP311.13
类 型: 硕士论文
年 份: 2008年
下 载: 356次
引 用: 1次
阅 读: 论文下载
 

内容摘要


在信息技术高速发展的海量信息时代,海量数据管理技术已经成为社会信息化的迫切任务。如何有效地存储和管理海量数据并高效地支持海量数据上的查询,对数据库管理系统提出了严峻的挑战。海量数据库被广泛地应用于地震监测、天气预报、物理化学实验等实际应用中,如科学与统计数据库,其数据最大的特点是存在大量的数据冗余,即相同的数据在不同的地方多次重复出现。如果对这种类型的关系数据直接进行存储,不仅浪费大量的存储空间,而且降低了查询的效率。另外,这类数据的模式相对稳定,属性值域有限,新产生的数据只追加到当前数据末尾而不更新已有内容;并且在数据上的查询大多只与众多属性中的少数几个相关。数据压缩技术与数据库技术进行结合,对海量数据库的存储与查询进行处理,形成了压缩数据库技术。压缩数据库技术研究的内容主要包括数据压缩方法、数据操作算法和查询处理技术。本文提出了海量数据库中数据的压缩和存储方法、压缩数据上的数据操作算法和查询处理技术。本文提出的压缩算法采用列存储的思想,使用二进制编码、一元编码、K-of-N编码和叠加编码对数据进行压缩,将属性对应的编码数据按照编码位进行扩展游程编码存储。本文提出了压缩数据上无需解压缩的数据操作算法,包括选择操作和投影操作,将对原始数据的查询操作转化为对压缩数据编码位的操作,简化了查询的实现。利用上述思想设计并实现了一个海量数据压缩和查询原型系统。理论分析和初步实验表明,采用列存储思想对海量数据进行压缩和存储可以很好地提高存储空间利用率、降低查询代价和提高查询效率。

全文目录


摘要  4-5
Abstract  5-9
第1章 绪论  9-16
  1.1 课题背景  9-10
  1.2 压缩数据库技术的研究现状  10-13
    1.2.1 数据库中数据压缩方法的研究  11-12
    1.2.2 压缩数据库中的数据操作算法  12-13
    1.2.3 压缩数据库中查询处理技术  13
  1.3 本文主要研究工作  13-15
  1.4 本文主要章节安排  15-16
第2章 预备知识  16-27
  2.1 二进制编码  16-17
  2.2 一元编码  17-18
  2.3 K-of-N编码  18-20
  2.4 叠加编码  20-23
  2.5 扩展游程编码  23-26
  2.6 本章小结  26-27
第3章 海量数据压缩算法  27-38
  3.1 集中式数据压缩算法  27-34
    3.1.1 集中式压缩算法概述  28
    3.1.2 集中式压缩算法的限制条件  28-30
    3.1.3 集中式压缩算法  30-32
    3.1.4 集中式解压缩算法  32-34
  3.2 分布式数据压缩算法  34-37
    3.2.1 属性级分布式压缩流程  35-36
    3.2.2 关系级分布式压缩流程  36-37
  3.3 本章小结  37-38
第4章 压缩数据上的数据操作  38-49
  4.1 选择操作  38-46
    4.1.1 一元编码数据上的操作  38-40
    4.1.2 二进制编码数据上的操作  40-44
    4.1.3 K-of-N编码数据上的操作  44-45
    4.1.4 叠加编码数据上的操作  45-46
  4.2 投影操作  46-48
  4.3 本章小结  48-49
第5章 压缩数据上的查询处理  49-54
  5.1 查询处理流程  49-52
    5.1.1 查询语言定义  49
    5.1.2 查询处理过程  49-52
  5.2 查询优化策略  52-53
  5.3 本章小结  53-54
第6章 海量数据压缩和查询原型系统  54-64
  6.1 CQSS原型系统简介  54-55
  6.2 实验  55-63
    6.2.1 数据压缩实验  55-60
    6.2.2 数据查询实验  60-63
  6.3 本章小结  63-64
结论  64-65
参考文献  65-69
攻读学位期间发表的学术论文  69-71
致谢  71

相似论文

  1. 基于BAP的数据压缩、操作与查询处理系统的实现,TP311.13
  2. DWMS中元数据以及缓冲区的设计和实现,TP311.13
  3. DWMS列存储中执行引擎的优化与实现,TP311.13
  4. 基于Shared Nothing机制的分布式数据访问层研究,TP311.13
  5. 基于逻辑卷的分级存储系统设计与实现,TP333
  6. 云环境下MapReduce容错技术的研究,TP302.8
  7. 磁约束聚变实验海量数据检索分析研究,TP391.3
  8. 非平衡数据集分类方法研究及其在电信行业中的应用,TP311.13
  9. 列存储数据仓库中的查询重写关键技术的研究与实现,TP311.13
  10. 面向海量数据的云存储系统实现与应用研究,TP333
  11. 面向大型商业网站复杂业务的IT资源监控系统的研究与开发,TP277
  12. 三维体数据生成及三维缓冲区分析,TP391.41
  13. 基于云计算的海量数据存储技术的研究及应用,TP333
  14. 海量数据存储与全文检索,TP333
  15. 云计算中MapReduce性能优化及应用,TP3
  16. 林业海量数据的存储和传输方法研究,S712
  17. VRGIS中海量数据绘制关键技术与算法研究,TP391.41
  18. 基于HDFS的多用户并行文件IO的设计与实现,TP338.6
  19. 多输出函数逻辑综合的理论研究与程序实现,TN47
  20. 海量激光扫描测量数据的处理,TN249

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机软件 > 程序设计、软件工程 > 程序设计 > 数据库理论与系统
© 2012 www.xueweilunwen.com