学位论文 > 优秀研究生学位论文题录展示

基于层次数据格式海量数据预处理关键技术研究

作 者: 谢光益
导 师: 蔡勋
学 校: 国防科学技术大学
专 业: 计算机科学与技术
关键词: 层次数据格式 HDF5 数据压缩 数据集中并行转换算法 数据独立并行转换算法 ParaView
分类号: TP311.13
类 型: 硕士论文
年 份: 2005年
下 载: 208次
引 用: 5次
阅 读: 论文下载
 

内容摘要


科学计算可视化是分析海量数据的有效手段。目前数值计算、遥感卫星等领域产生的数据集通常具有大规模、高维、复杂与时变等特点,这些应用对传统的数据预处理技术与方法提出了新的要求和挑战。 层次数据格式(Hierarchical Data Format 5,HDF5)库是当前国际上进行大规模科学数据管理的有效软件,HDF5库逐步成为国际主流科学数据管理的标准。本文面向海量科学数据可视化需求,在深入研究与分析HDF5库的多I/O访问机制、压缩与分块机制及并行访问模式的基础上,基于HDF5库对大规模科学数据压缩、并行搜索模型、数据并行转换算法及可视化并行应用等关键技术进行了深入研究,并完成了相关算法实现。本文的主要工作和研究成果包括: (1)针对传统数据压缩算法在处理科学数据时,存在压缩比低、压缩与解压时间长的问题,本文对Rice数据压缩算法进行了研究。针对Rice算法中一维差分预测方法不能有效剔除冗余数据的问题,提出一种新的二维差分预测方法,该方法实现双序列差分预测与“Zig-Zag”扫描差分预测。实验结果表明,提出的预测方法可以有效的剔除冗余数据,提高了数据压缩效率。与原算法比较,采用新的差分预测方法可以提高3.9~30.1%压缩比。 (2)本文基于深度优先搜索模型,设计了基于HDF5库的数据串行转换(DST)算法,实验结果表明,该算法在处理中小规模数据(不超过测试机器内存容量)时转换效率较高,但随着数据规模的增加,转换效率呈非线性下降。针对DST算法存在的问题,本文对数据并行转换算法进行了研究,设计了数据集中并行转换(DCPT)算法,DCPT算法能对大规模数据集进行有效的并行分块处理。实验结果表明,该算法数据处理效率比DST算法高,处理时间只有DST算法的26.3~84.3%。 (3)HDF5数据文件具有多数据对象、数据结构复杂的特性,针对DCPT算法在处理复杂结构的数据文件时存在效率不高的问题,本文提出了一种数据独立并行转换(DIPT)算法。DIPT算法扩展了并行通信域,采用一个保留进程监视文件元数据变化情况,数据并行处理时支持进程独立处理数据对象。实验结果表明,DIPT算法在处理数据对象数目较多且数据结构复杂的HDF5数据文件时,处理速度比DCPT算法快33.3~66.7%。 最后,本文面向ParaView可视化系统进行了数据转换算法的实现,并应用该系统对转换后的数据进行了并行绘制效率分析。空气动力学、流体力学、核物理等领域数据并行绘制的应用实验结果表明,数据以并行方式组织的绘制时间只有串行组织的11.3~23.7%。

全文目录


图目录  8-9
表目录  9-10
摘要  10-11
ABSTRACT  11-13
第一章 绪论  13-24
  §1.1 课题背景及意义  13-14
  §1.2 层次数据格式(HDF5)库研究  14-20
    1.2.1 主要特征  14-17
    1.2.2 访问模式  17-20
  §1.3 国内外研究现状  20-21
  §1.4 研究内容  21-23
    1.4.1 基于HDF5库的数据压缩  21-22
    1.4.2 基于HDF5库的数据转换  22
    1.4.3 面向ParaView的数据转换  22-23
  §1.5 论文组织结构  23-24
第二章 基于HDF5库的数据压缩算法研究  24-34
  §2.1 引言  24
  §2.2 Rice算法编码  24-29
    2.2.1 预处理器  24-26
    2.2.2 自适应熵编码器  26-29
  §2.3 Rice算法解码  29-32
    2.3.1 自适应熵解码器  29-31
    2.3.2 后处理器  31-32
  §2.4 实验结果与性能分析  32-33
    2.4.1 实验结果  32-33
    2.4.2 性能分析  33
  §2.5 小结  33-34
第三章 二维差分预测Rice算法设计与实现  34-43
  §3.1 一维差分预测分析  34-36
  §3.2 二维差分预测  36-40
    3.2.1 双序列差分预测  36-39
    3.2.2 “Zig-Zag”扫描差分预测  39-40
  §3.3 基于块编码的时变数据压缩  40-41
  §3.4 实验结果与性能分析  41-42
    3.4.1 实验结果  41
    3.4.2 性能分析  41-42
  §3.5 小结  42-43
第四章 数据串行转换(DST)算法设计与实现  43-48
  §4.1 深度优先搜索模型  43-44
  §4.2 算法实现  44-45
    4.2.1 规则网格数据处理  44
    4.2.2 非规则网格数据处理  44-45
  §4.3 实验结果  45-46
  §4.4 性能分析  46
  §4.5 小结  46-48
第五章 数据并行转换算法设计与实现  48-55
  §5.1 数据集中并行转换(DCPT)算法  48-49
    5.1.1 集中并行搜索模型  48-49
    5.1.2 性能分析  49
  §5.2 数据独立并行转换(DIPT)算法  49-52
    5.2.1 独立并行搜索模型  49-50
    5.2.2 保留进程  50
    5.2.3 独立并行机制  50-51
    5.2.4 保留进程功能  51-52
    5.2.5 锁同步机制  52
  §5.3 自适应选择机制  52-53
  §5.4 实验结果与性能分析  53-54
    5.4.1 实验结果  53-54
    5.4.2 性能分析  54
  §5.5 小结  54-55
第六章 面向ParaView的数据转换实现  55-62
  §6.1 ParaView的数据格式选择  55-57
    6.1.1 串行数据格式  55-56
    6.1.2 并行数据格式  56-57
  §6.2 数据串行转换算法实现  57
  §6.3 数据并行转换算法实现  57-58
  §6.4 ParaView并行绘制效率分析  58-60
    6.4.1 并行绘制应用  58-59
    6.4.2 效率分析  59-60
  §6.5 面向可视化的数据压缩测试  60-61
  §6.6 小结  61-62
第七章 结束语  62-63
  §7.1 全文总结  62
  §7.2 工作展望  62-63
致谢  63-64
作者攻读硕士期间发表论文  64-65
参考文献  65-67

相似论文

  1. 基于BAP的数据压缩、操作与查询处理系统的实现,TP311.13
  2. 广域网数据压缩算法的研究与实现,TP391.41
  3. CFD标量数据场体绘制算法及并行可视化方法研究与实现,TP391.41
  4. 质谱数据结构化存储及压缩问题研究,Q51
  5. 跟踪试验数据管理和分析系统研究,TP315
  6. 海底超声检测装置标验与率定设备的开发,TP274.53
  7. 车辆自组网安全聚合研究,TN929.5
  8. 分布式查询优化中基于数据压缩的全归约算法研究与设计,TP311.135
  9. 动态电能质量扰动信号的数据压缩和消噪,TM711
  10. 实时控制系统中实时数据传输的研究与实现,TP273
  11. 实时数据库中数据压缩算法的研究,TP311.13
  12. 基于小波神经网络的心电数据压缩方法研究,TP274.2
  13. 小波变换理论及其在地震勘探数据压缩中的应用,TN911.7
  14. 基于数据压缩的温室无线传感器网络数据传输技术,TP212.9
  15. 基于H.264编码标准的视频点播系统的设计与实现,TN948.64
  16. 基于GSM和Google Earth的GPS远程定位技术研究,TN967.1
  17. Huffman编码在环保实时监测系统中的研究与应用,TP274.4
  18. 小波分析在大中型泵机组状态监测与故障诊断中的应用,TV737
  19. 基于Huffman编码的GPS定位数据压缩算法及实现,P228.4
  20. 电厂实时数据平台研究与设计,TP311.52

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机软件 > 程序设计、软件工程 > 程序设计 > 数据库理论与系统
© 2012 www.xueweilunwen.com