学位论文 > 优秀研究生学位论文题录展示

面向空间数据处理的广域数据密集型计算系统研究

作 者: 赵冬
导 师: 黄震春
学 校: 清华大学
专 业: 计算机科学与技术
关键词: 数据密集型计算 并行处理框架 调度算法 Robinia平台
分类号: TP274
类 型: 硕士论文
年 份: 2013年
下 载: 17次
引 用: 0次
阅 读: 论文下载
 

内容摘要


科学数据的快速增长带来了以数据为研究方法的第四科学范式,与传统的计算密集型科学计算不同,数据密集型计算需要更多的考虑数据的存储获取、吞吐延迟、负载调度等,因此其需要的实现技术和平台也和以往的系统不一样。当前数据密集型计算在科学界及工业界都被普遍关注,其应用的来源主要包括互联网、科学计算、商务智能数据挖掘等。本文以遥感影像处理领域的大数据科学计算作为案例背景来研究面向空间数据处理的广域数据密集型计算系统及相关调度问题。1.分布式空间数据并行处理系统研究基于实验室开发的Robinia平台设计实现针对广域分布式空间数据存储与并行处理系统,并进行优化及改进,包括数据存储系统的设计,并行处理逻辑的设计实现,并行框架的性能评测,瓶颈分析以及代码优化。着重关注了数据复制和负载平衡,根据一些原则进行自动的空间数据副本复制并且将这些不同的副本分布到不同的节点上以实现对大多数分布式处理算法的负载均衡;以及并行的高性能,能够依靠多个节点之间的并行处理获得比较高的性能,这依赖于复制好的数据之间的并行性。通过实验数据证明Robinia平台数据部分具有良好的鲁棒性,较低的额外负载开销以及灵活的适用性。2.面向数据密集型计算调度算法的研究在搭建好的Robinia平台基础上进行数据密集型计算的调度算法研究。包括远端数据调度方式研究,数据的预取,副本存放以及数据导入等方式,设计实现了一种基于数据节点不变,计算节点增多情况下兼顾数据局部性和全局负载均衡的多队列数据任务调度算法。研究的应用背景是遥感影像处理中的干旱模型计算,使用中科院对地观测中心提供的NDWI算法计算全球干旱指数作为测试用例,利用Master-Worker结构的并行处理,在Linux、Windows双系统上跨平台运行,设计合适的主节点任务执行和导入计算所需的数据。实验结果显示数据密集型计算中调度算法的不同对系统性能影响非常明显,数据局部性可以很好的减少系统的运行时间开销,多队列调度算法相对随机调度算法时间开销更小。

全文目录


摘要  3-4
Abstract  4-9
第1章 引言  9-12
  1.1 研究背景  9-10
  1.2 研究内容  10
  1.3 本文贡献  10-11
  1.4 组织结构  11-12
第2章 国内外研究现状、相关工作  12-28
  2.1 相关技术介绍  12-17
    2.1.1 大数据与云计算  12-13
    2.1.2 分布式文件存储系统  13-14
    2.1.3 NoSQL 数据库  14-15
    2.1.4 数据密集型计算系统  15-17
  2.2 数据调度算法概述  17-20
  2.3 Robinia 系统介绍  20-27
    2.3.1 核心机制介绍  21-24
    2.3.2 全局状态监视  24-25
    2.3.3 执行体  25-27
  2.4 本章小结  27-28
第3章 分布式空间数据存储系统设计  28-36
  3.1 本章介绍  28
  3.2 遥感影像数据的特征  28-29
  3.3 Robinia 数据模型  29-33
    3.3.1 元数据信息  30-32
    3.3.2 数据主体信息  32
    3.3.3 数据附件信息  32-33
  3.4 Robinia 数据存储体系结构  33-35
    3.4.1 头节点  34
    3.4.2 数据节点  34-35
  3.5 本章小结  35-36
第4章 空间数据并行处理系统实现与优化  36-50
  4.1 本章介绍  36
  4.2 数据存取操作  36-41
    4.2.1 服务端设计  37-40
    4.2.2 客户端设计  40-41
  4.3 数据并行处理框架  41-45
    4.3.1 Master-Worker 结构设计  41-43
    4.3.2 Master 实现  43
    4.3.3 Worker 实现  43-44
    4.3.4 数据和任务调度器实现  44-45
  4.4 优化与改进  45-47
    4.4.1 事件队列处理机制优化  45-46
    4.4.2 多线程实例同步机制改进  46-47
    4.4.3 节点发现机制完善  47
  4.5 系统界面  47-49
  4.6 本章小结  49-50
第5章 数据密集型计算调度算法研究  50-59
  5.1 本章介绍  50
  5.2 数据分布情况讨论  50-53
    5.2.1 原始数据的导入  50-51
    5.2.2 数据存放策略选择  51-52
    5.2.3 数据分布不变计算资源增多的情况  52-53
  5.3 多队列数据任务调度算法  53-57
    5.3.1 问题建模  53-54
    5.3.2 算法描述  54-56
    5.3.3 相关参数讨论  56-57
  5.4 数据预取和处理机制讨论  57-58
  5.5 本章小结  58-59
第6章 实验和评测  59-67
  6.1 测试用例介绍  59-61
  6.2 并行处理系统测试  61-65
  6.3 数据调度算法测试  65-66
  6.4 本章小结  66-67
第7章 总结与展望  67-71
  7.1 论文工作总结  67-68
  7.2 未来工作展望  68-71
参考文献  71-74
致谢  74-76
个人简历、在学期间发表的学术论文与研究成果  76

相似论文

  1. 车载CAN网络的网关设计方法研究,TP273
  2. Linux内核进程调度算法的分析、研究与改进,TP316.81
  3. 基于Click的模块化软件路由器的包调度算法研究,TP393.05
  4. 一个MPEG2视频解码器的黑场解析模块设计与实现,TP391.41
  5. 基于IEEE Wireless MAN QoS框架算法的研究与仿真,TP393.09
  6. 基于域信任的自适应网格工作流调度算法,TP311.52
  7. 基于云计算平台的电信业务支撑系统中调度算法的研究,TP301.6
  8. 超高速网络中基于终端限制的大数据传输问题的研究,TN919.3
  9. 多核系统中基于温度限制的节能调度算法研究,TP332
  10. 面向专家评审的邮件服务系统的设计与实现,TP393.098
  11. 基于AFDX航空网络的端到端延时分析,V243
  12. 数据密集型计算系统中的作业调度技术研究,TP311.13
  13. 存在批处理设备的复杂产品调度研究,TH162
  14. 基于经济模型的网格资源调度算法研究,TP393.01
  15. 分布式计算系统关键技术研究,TP393.09
  16. 可重构系统操作系统布局与任务调度算法设计与实现,TP316
  17. 基于IMS架构的QoS保证机制研究,TN929.5
  18. M-WiMAX系统中采用DTX/CNG编码技术的VoIP业务上行调度算法研究,TN916.2
  19. 网格资源调度研究及科学数据平台的应用,TP393.02
  20. 网格技术在校园网中的设计与实现,TP393.01
  21. 带空间限制的实时多处理器系统调度研究,TP332

中图分类: > 工业技术 > 自动化技术、计算机技术 > 自动化技术及设备 > 自动化系统 > 数据处理、数据处理系统
© 2012 www.xueweilunwen.com