学位论文 > 优秀研究生学位论文题录展示

云环境下MapReduce容错技术的研究

作 者: 朱浩
导 师: 陈昊鹏
学 校: 上海交通大学
专 业: 计算机应用技术
关键词: MapReduce Hadoop 海量数据处理 并行计算云计算 自适应
分类号: TP302.8
类 型: 硕士论文
年 份: 2012年
下 载: 213次
引 用: 0次
阅 读: 论文下载
 

内容摘要


云计算(Cloud Computing)已经成为今天计算机行业中最重要的技术之一。随着云技术的迅速发展,数据的形式从传统的结构化数据(structured data)逐步地向半结构化数据(semi-structured data)和非结构化数据(unstructureddata)转变,同时数据的规模也有了海量式地膨胀。传统的数据库技术已经无法应对海量规模的数据,因此,如何来处理这些大数据(Big Data)就成了一个亟待解决的问题。于是,Google在2004年提出了它们的解决方案——MapReduce的技术,来应对云时代的大数据带来的挑战。简单地说,MapReduce是一个针对海量数据进行批量并行化处理的编程模型。它不仅能够解决处理海量数据的性能问题,同时也简化了程序员开发分布式并行程序的方式。更重要的是,MapReduce很好地解决了可扩展性(Scalability)和可靠性(Reliability)等问题,这也是与传统数据库相比MapReduce最大的优势。围绕着MapReduce这个新兴的编程框架,国内外展开了各种各样的研究,其中关于MapReduce的容错能力一直是研究的热点之一。国内外针对容错能力的研究方案主要可以归纳为以下两种方法:再执行和备份。这些方案旨在发现失效后进行相应的恢复操作,但是如果不能及时地感知到失效的情况,以上方案就不能充分发挥作用了。因此,本文将从一个新的角度出发来研究MapReduce的容错能力,即如何能够更快更准确地感知到MapReduce中的失效节点。针对这个问题,本文尝试提出了两种思路:自适应的超期时间和基于信誉的探测模型。自适应的超期时间旨在改变MapReduce集群中严格并且固定的超期时间。为了做到这一点,首先会对每个作业的执行时间进行估算,然后让超期时间自适应于估算得到的执行时间。在运行时,如果JobTracker超过了自适应的超期时间内没有收到来自节点的心跳信息时,那么那个节点就会被认为发生了失效。而基于信誉的探测模型则会给每个节点赋予一个信誉值,利用reduce任务远程获取map数据失败的动作,实时地对节点的信誉进行评估。如果节点的信誉值因为过多的失败动作而衰减到预设的下限值时,那个节点就被认为发生了失效。大量实验数据表明,本文提出的两种方案要明显优于原始的Hadoop集群。当集群中有节点失效之后,相比原始的方案,本文中的方案可以将发现失效的时间大幅度地缩减。另外,在两个方案的对比实验中可以看出,自适应的超期时间将更倾向于短作业的执行,而基于信誉的探测模型更适合大作业的执行。使用这两种方案,可以更好地配合已有的容错技术,使得Hadoop集群拥有一个更好的容错能力——不仅能够快速地定位失效,并且也能够快速地从失效中恢复回来。本文的主要贡献是提出了自适应的超期时间和基于信誉的探测模型两种机制,同时扩宽了Hadoop容错的研究思路。

全文目录


摘要  5-7
ABSTRACT  7-9
目录  9-12
插图索引  12-13
表格索引  13-14
第一章 绪论  14-17
  1.1 研究背景  14-15
  1.2 研究内容  15-16
  1.3 论文的组织结构  16
  1.4 本文贡献  16-17
第二章 国内外研究现状  17-27
  2.1 MapReduce 概述  17-19
  2.2 MapReduce 的研究热点  19-22
  2.3 关于MapReduce 容错技术的研究  22-26
    2.3.1 MapReduce 自身的容错机制介绍  22-24
    2.3.2 改善慢任务的评判算法  24
    2.3.3 改善key-value 数据的安全性  24-25
    2.3.4 避免单点故障  25-26
  2.4 本章小结  26-27
第三章 解决方案  27-38
  3.1 自适应的超期时间  28-33
    3.1.1 设计动机  28-29
    3.1.2 作业估算模型  29-30
    3.1.3 超期时间设置  30-31
    3.1.4 两阶段心跳  31-33
  3.2 基于信誉的探测模型  33-37
    3.2.1 设计动机  33
    3.2.2 信誉值  33
    3.2.3 时间和空间因素  33-36
    3.2.4 信誉恢复  36-37
  3.3 本章小结  37-38
第四章 系统实现  38-50
  4.1 估算算法的实现  38-43
    4.1.1 Hadoop 作业的执行过程  38-40
    4.1.2 预调度  40-42
    4.1.3 超期时间设置  42-43
  4.2 基于信誉值的探测  43-47
    4.2.1 执行序列  43-45
    4.2.2 数据结构和算法  45-47
  4.3 前台页面集成  47-48
  4.4 本章小结  48-50
第五章 实验分析结果  50-58
  5.1 实验环境  50-51
  5.2 负载模拟和基准测试  51-53
  5.3 数据分析  53-57
    5.3.1 两阶段心跳  53-54
    5.3.2 两种机制分析  54-56
    5.3.3 对比分析  56-57
  5.4 本章小节  57-58
第六章 总结和展望  58-60
  6.1 工作总结  58-59
  6.2 研究展望  59-60
参考文献  60-65
致谢  65-66
攻读学位期间发表的学术论文目录  66

相似论文

  1. 陀螺稳定吊舱控制系统稳定回路设计与研究,V241.5
  2. 基于DSP的感应电动机四象限运行系统的研究,TM346
  3. 基于DSP的感应电机矢量控制系统研究,TM346
  4. 适应多总线通讯模式的感应电动机矢量控制系统研究,TM346
  5. 半导体激光器热电控制技术研究,TN248.4
  6. 多重ANN/HMM混合模型在语音识别中的应用,TN912.34
  7. 基于滑动相关双门限的扩频码同步捕获技术的研究,TN914.42
  8. 跳频通信系统中同步及频率自适应算法研究,TN914.41
  9. 多载波CDMA的信道编码与信道估计技术的研究,TN929.533
  10. 基于纹理特征的视频编码技术研究,TP391.41
  11. 图像分割中阴影去除算法的研究,TP391.41
  12. 非线性变结构导引规律的研究,TJ765
  13. 一类欠驱动Lagrangian系统的最优同步控制,TP13
  14. 分导飞行器多模型自适应控制,TP273.2
  15. 自适应双重控制在垂直起降机中的应用研究,TP273
  16. 自适应模糊控制算法研究及其实现,TP273.4
  17. GPS抗干扰技术研究,P228.4
  18. 关于混沌系统同步控制方面的研究,O415.5
  19. 基于核方法的高光谱图像异常检测算法研究,TP751
  20. 有源电力滤波器及其在配电网中的应用,TN713.8
  21. 近壁面环境下UUV回收过程的自适应控制方法研究,TP273

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 一般性问题 > 设计与性能分析 > 容错技术
© 2012 www.xueweilunwen.com