学位论文 > 优秀研究生学位论文题录展示
面向实时OLAP的数据立方体计算方法研究
作 者: 李易
导 师: 徐晓飞
学 校: 哈尔滨工业大学
专 业: 计算机科学与技术
关键词: 数据立方体 压缩 增量更新 实时OLAP
分类号: TP311.13
类 型: 硕士论文
年 份: 2013年
下 载: 23次
引 用: 0次
阅 读: 论文下载
内容摘要
OLAP(Online Analysis Processing)是数据仓库中一种重要的决策支持分析工具。传统的OLAP设计基于历史数据的离线批量计算,制约了分析的实时性。在当今瞬息万变的商业社会,决策者需要把握稍纵即逝的商机,要求OLAP能够对海量数据进行实时分析,以帮助决策者及时做出决策。实时OLAP要求在数据仓库实时更新的情况下具有快速查询响应的能力。为了达到实时OLAP的要求,数据立方体预计算是一种行之有效的解决方案,即将用户可能提出的所有查询条件预先进行计算,用户请求查询时直接返回预计算结果即可,而不需要进行复杂的在线聚集计算。随着数据仓库的实时更新,数据立方体也需随之实时更新,使得决策者能及时在线查询当前最新的业务情况。数据立方体所占空间将是原数据的几十甚至上百倍,故数据立方体计算是一项数据密集和计算密集型任务,计算不同维度组合上的聚集以及存储聚集结果对时间和空间都有非常高的要求。面向实时OLAP的要求,本文的研究思路如下:首先,数据立方体预计算解决了实时OLAP的快速查询响应要求。故本文对数据立方体的计算方法展开了研究,以降低计算时间复杂度和降低存储空间复杂度两个核心目标为引导,对国内外相关技术进行学习和研究。其次,为了解决实时OLAP的数据立方体实时更新问题,本文重点研究了支持增量更新的数据立方体模型及增量计算方法。最后,本文针对数据立方体在增量更新期间不可用的问题展开进一步研究,以切合实时OLAP的要求。经过对大量国外研究现状的学习以及自身的思考和探索,本文所取得的研究成果和创新如下:首先,通过研究发现,为了达到实时OLAP的要求,对数据立方体进行压缩是非常必要的,有效的数据立方体压缩方法在削减其空间复杂度的同时也将大大缩短其计算时间和更新维护的时间。本文采用可扩展多维数组作为数据立方体的数据组织模型,并通过去除完全冗余的逻辑压缩方法和基于HOMD的物理压缩方法对可扩展多维数组进行两次有效压缩,大幅度降低了数据立方体的空间复杂度。然后,本文首次提出了基于MOLAP的数据立方体逻辑压缩模型子数组压缩数据立方体SC-Cube(Sub-array Compressed Cube),并提出相应的增量计算方法,有效缩短了数据立方体的计算时间和更新维护时间。最后,针对数据立方体在增量更新期间内不可用的问题,本文进一步研究了基于SC-Cube的在线聚集合并方法,以满足实时OLAP查询要求。
|
全文目录
摘要 4-6 Abstract 6-8 目录 8-10 第1章 绪论 10-16 1.1 课题研究背景及意义 10-12 1.1.1 课题研究背景 10-11 1.1.2 课题研究意义 11-12 1.2 国内外研究现状 12-15 1.2.1 ROLAP 12-14 1.2.2 MOLAP 14 1.2.3 GOLAP 14-15 1.3 本文主要研究内容及论文结构 15-16 第2章 数据立方体基础知识 16-24 2.1 引言 16 2.2 数据立方体的基本概念 16-19 2.2.1 数据立方体定义 16-17 2.2.2 聚集函数定义及性质 17-19 2.3 经典立方体简介 19-23 2.3.1 冰山立方体 19-20 2.3.2 浓缩立方体 20 2.3.3 侏儒立方体 20 2.3.4 商立方体 20-23 2.4 本章小结 23-24 第3章 子数组压缩立方体 24-43 3.1 引言 24-25 3.2 可扩展多维数组模型 25-27 3.2.1 逻辑模型 25-27 3.2.2 基于可扩展多维数组的数据立方体 27 3.3 基于 HOMD 的物理存储模型 27-30 3.3.1 HOMD 模型 27-29 3.3.2 HOMD 操作 29-30 3.4 SC-CUBE 模型 30-32 3.5 基于 SC-CUBE 的增量计算方法 32-37 3.5.1 计算阶段 33-34 3.5.2 刷新阶段 34-37 3.6 实验结果与分析 37-42 3.6.1 实验环境 37-38 3.6.2 实验数据 38 3.6.3 SC-Cube 的压缩比 38-40 3.6.4 SC-Cube 的计算性能 40-41 3.6.5 SC-Cube 的计算耗时分析 41-42 3.7 本章小结 42-43 第4章 面向实时 OLAP 的数据立方体查询方法 43-52 4.1 引言 43 4.2 数据立方体查询 43-45 4.2.1 点查询 43-44 4.2.2 范围查询 44 4.2.3 冰山查询 44-45 4.2.4 top-k 查询 45 4.3 面向实时 OLAP 的快速查询方法 45-47 4.3.1 问题描述 45-46 4.3.2 基本表在线计算方案 46 4.3.3 等待立方体更新方案 46-47 4.3.4 在线聚集合并方案 47 4.4 在线聚集合并算法 47-48 4.5 实验结果分析 48-50 4.6 实时 OLAP 系统设计 50-51 4.7 本章小结 51-52 总结 52-53 参考文献 53-59 致谢 59
|
相似论文
- 基于重叠变换与矢量量化的图像压缩算法及应用研究,TN919.81
- 基于率失真优化的码率控制算法研究,TN919.81
- 电视制导系统中视频图像压缩优化设计及实现研究,TN919.81
- 海量数据压缩、操作和处理方法的研究,TP311.13
- 基于TMS320C6713的SPIHT图像压缩算法研究及实现,TP391.41
- 图像的稀疏表示及编码模型研究,TP391.41
- 基于感兴趣信息的高光谱图像压缩技术研究,TP391.41
- 基于BAP的数据压缩、操作与查询处理系统的实现,TP311.13
- 高保真遥感图象压缩与分辨率增强联合处理研究,TP751
- MATLAB对雷达信号处理机系统后置处理的仿真应用,TN957.51
- 气—水可压缩流物质界面的R-M不稳定性研究,O359.1
- 远程医疗系统图像压缩及传输关键技术研究,R318.0
- 水下目标特征的压缩与融合技术研究,TN911.7
- 戴维·哈维空间转移理论及其哲学意义探析,B089.1
- 偏远地区配电变压器防盗监控系统的设计,TM421
- 高阶中立型泛函微分方程非振动解的存在性及其迭代逼近,O175
- 基于小波的雷达视频压缩方法研究,TN957.52
- 椎体强化术后夹心椎骨折的临床随访研究,R687.3
- 非线性常微分方程边值问题的正解,O175.8
- 碳纤维增强铝基泡沫材料的动力学基础和制备工艺研究,TB383.4
- 一种基于线性预测的低速率语音编码算法及其仿真,TN912.3
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机软件 > 程序设计、软件工程 > 程序设计 > 数据库理论与系统
© 2012 www.xueweilunwen.com
|