学位论文 > 优秀研究生学位论文题录展示
基于层次数据格式海量数据预处理关键技术研究
作 者: 谢光益
导 师: 蔡勋
学 校: 国防科学技术大学
专 业: 计算机科学与技术
关键词: 层次数据格式 HDF5 数据压缩 数据集中并行转换算法 数据独立并行转换算法 ParaView
分类号: TP311.13
类 型: 硕士论文
年 份: 2005年
下 载: 208次
引 用: 5次
阅 读: 论文下载
内容摘要
科学计算可视化是分析海量数据的有效手段。目前数值计算、遥感卫星等领域产生的数据集通常具有大规模、高维、复杂与时变等特点,这些应用对传统的数据预处理技术与方法提出了新的要求和挑战。 层次数据格式(Hierarchical Data Format 5,HDF5)库是当前国际上进行大规模科学数据管理的有效软件,HDF5库逐步成为国际主流科学数据管理的标准。本文面向海量科学数据可视化需求,在深入研究与分析HDF5库的多I/O访问机制、压缩与分块机制及并行访问模式的基础上,基于HDF5库对大规模科学数据压缩、并行搜索模型、数据并行转换算法及可视化并行应用等关键技术进行了深入研究,并完成了相关算法实现。本文的主要工作和研究成果包括: (1)针对传统数据压缩算法在处理科学数据时,存在压缩比低、压缩与解压时间长的问题,本文对Rice数据压缩算法进行了研究。针对Rice算法中一维差分预测方法不能有效剔除冗余数据的问题,提出一种新的二维差分预测方法,该方法实现双序列差分预测与“Zig-Zag”扫描差分预测。实验结果表明,提出的预测方法可以有效的剔除冗余数据,提高了数据压缩效率。与原算法比较,采用新的差分预测方法可以提高3.9~30.1%压缩比。 (2)本文基于深度优先搜索模型,设计了基于HDF5库的数据串行转换(DST)算法,实验结果表明,该算法在处理中小规模数据(不超过测试机器内存容量)时转换效率较高,但随着数据规模的增加,转换效率呈非线性下降。针对DST算法存在的问题,本文对数据并行转换算法进行了研究,设计了数据集中并行转换(DCPT)算法,DCPT算法能对大规模数据集进行有效的并行分块处理。实验结果表明,该算法数据处理效率比DST算法高,处理时间只有DST算法的26.3~84.3%。 (3)HDF5数据文件具有多数据对象、数据结构复杂的特性,针对DCPT算法在处理复杂结构的数据文件时存在效率不高的问题,本文提出了一种数据独立并行转换(DIPT)算法。DIPT算法扩展了并行通信域,采用一个保留进程监视文件元数据变化情况,数据并行处理时支持进程独立处理数据对象。实验结果表明,DIPT算法在处理数据对象数目较多且数据结构复杂的HDF5数据文件时,处理速度比DCPT算法快33.3~66.7%。 最后,本文面向ParaView可视化系统进行了数据转换算法的实现,并应用该系统对转换后的数据进行了并行绘制效率分析。空气动力学、流体力学、核物理等领域数据并行绘制的应用实验结果表明,数据以并行方式组织的绘制时间只有串行组织的11.3~23.7%。
|
全文目录
图目录 8-9 表目录 9-10 摘要 10-11 ABSTRACT 11-13 第一章 绪论 13-24 §1.1 课题背景及意义 13-14 §1.2 层次数据格式(HDF5)库研究 14-20 1.2.1 主要特征 14-17 1.2.2 访问模式 17-20 §1.3 国内外研究现状 20-21 §1.4 研究内容 21-23 1.4.1 基于HDF5库的数据压缩 21-22 1.4.2 基于HDF5库的数据转换 22 1.4.3 面向ParaView的数据转换 22-23 §1.5 论文组织结构 23-24 第二章 基于HDF5库的数据压缩算法研究 24-34 §2.1 引言 24 §2.2 Rice算法编码 24-29 2.2.1 预处理器 24-26 2.2.2 自适应熵编码器 26-29 §2.3 Rice算法解码 29-32 2.3.1 自适应熵解码器 29-31 2.3.2 后处理器 31-32 §2.4 实验结果与性能分析 32-33 2.4.1 实验结果 32-33 2.4.2 性能分析 33 §2.5 小结 33-34 第三章 二维差分预测Rice算法设计与实现 34-43 §3.1 一维差分预测分析 34-36 §3.2 二维差分预测 36-40 3.2.1 双序列差分预测 36-39 3.2.2 “Zig-Zag”扫描差分预测 39-40 §3.3 基于块编码的时变数据压缩 40-41 §3.4 实验结果与性能分析 41-42 3.4.1 实验结果 41 3.4.2 性能分析 41-42 §3.5 小结 42-43 第四章 数据串行转换(DST)算法设计与实现 43-48 §4.1 深度优先搜索模型 43-44 §4.2 算法实现 44-45 4.2.1 规则网格数据处理 44 4.2.2 非规则网格数据处理 44-45 §4.3 实验结果 45-46 §4.4 性能分析 46 §4.5 小结 46-48 第五章 数据并行转换算法设计与实现 48-55 §5.1 数据集中并行转换(DCPT)算法 48-49 5.1.1 集中并行搜索模型 48-49 5.1.2 性能分析 49 §5.2 数据独立并行转换(DIPT)算法 49-52 5.2.1 独立并行搜索模型 49-50 5.2.2 保留进程 50 5.2.3 独立并行机制 50-51 5.2.4 保留进程功能 51-52 5.2.5 锁同步机制 52 §5.3 自适应选择机制 52-53 §5.4 实验结果与性能分析 53-54 5.4.1 实验结果 53-54 5.4.2 性能分析 54 §5.5 小结 54-55 第六章 面向ParaView的数据转换实现 55-62 §6.1 ParaView的数据格式选择 55-57 6.1.1 串行数据格式 55-56 6.1.2 并行数据格式 56-57 §6.2 数据串行转换算法实现 57 §6.3 数据并行转换算法实现 57-58 §6.4 ParaView并行绘制效率分析 58-60 6.4.1 并行绘制应用 58-59 6.4.2 效率分析 59-60 §6.5 面向可视化的数据压缩测试 60-61 §6.6 小结 61-62 第七章 结束语 62-63 §7.1 全文总结 62 §7.2 工作展望 62-63 致谢 63-64 作者攻读硕士期间发表论文 64-65 参考文献 65-67
|
相似论文
- 基于BAP的数据压缩、操作与查询处理系统的实现,TP311.13
- 广域网数据压缩算法的研究与实现,TP391.41
- CFD标量数据场体绘制算法及并行可视化方法研究与实现,TP391.41
- 质谱数据结构化存储及压缩问题研究,Q51
- 跟踪试验数据管理和分析系统研究,TP315
- 海底超声检测装置标验与率定设备的开发,TP274.53
- 车辆自组网安全聚合研究,TN929.5
- 分布式查询优化中基于数据压缩的全归约算法研究与设计,TP311.135
- 动态电能质量扰动信号的数据压缩和消噪,TM711
- 实时控制系统中实时数据传输的研究与实现,TP273
- 实时数据库中数据压缩算法的研究,TP311.13
- 基于小波神经网络的心电数据压缩方法研究,TP274.2
- 小波变换理论及其在地震勘探数据压缩中的应用,TN911.7
- 基于数据压缩的温室无线传感器网络数据传输技术,TP212.9
- 基于H.264编码标准的视频点播系统的设计与实现,TN948.64
- 基于GSM和Google Earth的GPS远程定位技术研究,TN967.1
- Huffman编码在环保实时监测系统中的研究与应用,TP274.4
- 小波分析在大中型泵机组状态监测与故障诊断中的应用,TV737
- 基于Huffman编码的GPS定位数据压缩算法及实现,P228.4
- 电厂实时数据平台研究与设计,TP311.52
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机软件 > 程序设计、软件工程 > 程序设计 > 数据库理论与系统
© 2012 www.xueweilunwen.com
|