学位论文 > 优秀研究生学位论文题录展示

一个可扩展的MapReduce原型设计与实现

作 者: 朱楠
导 师: 梁阿磊
学 校: 上海交通大学
专 业: 软件学院
关键词: MapReduce 大规模数据处理 Peer-to-Peer
分类号: TP311.52
类 型: 硕士论文
年 份: 2011年
下 载: 102次
引 用: 0次
阅 读: 论文下载
 

内容摘要


MapReduce从2004年首次提出以来,在全世界范围内被广泛采用。作为一种分布式计算模型,其大幅度简化了程序员的工作。MapReduce为程序员自动为完成了容错性,死锁等时至今日仍然没有通用的解决方案的问题。正是因为MapReduce这个特性,越来越多的互联网企业将自己的业务部署在MapReduce系统上。然而,现有的MapReduce模型在业务量飞速增长的云计算时代逐渐表现出了可扩展性不足的缺点,即在一定的硬件配置条件下,现有的主流MapReduce系统由于中心控制节点的负载过大,只能支持一定的集群规模。本文提出一种基于分布式哈希表(Distributed Hash Table)的Peer-to-Peer架构的MapReduce模型,在保留原有MapReduce工作流不变,即对用户的使用不造成任何影响的基础上,从2004年Google的设计中移除了负责MapReduce任务整体调度的Master Node和底层文件系统管理的Name Node。在本系统中底层分布式文件系统通过分布式哈希技术查询数据,上层的MapReduce作业系统则通过Distributed Notification的机制维护所有的作业的运行,从而在理论上使得MapReduce这样的大规模数据处理系统达到与当下流行的P2P系统(例如BitTorrent)同样规模的可扩展性。在本文提出的系统设计与理论验证的基础上,作者实现了一个基于Peer-to-Peer架构的MapReduce原型系统,WordCount这样的典型程序实验表明,在本文提出的理论基础上能够完成MapReduce的基本工作流程,并且不会对用户使用造成过多的影响。因而说,本文提出的新的MapReduce框架设计是切实可行,并且对大规模数据处理领域的发展起到了一定的贡献。

全文目录


摘要  3-5
ABSTRACT  5-9
图表目录  9-12
第一章 绪论  12-19
  1.1 研究背景  13-17
    1.1.1 MapReduce  13-14
    1.1.2 MapReduce 性能优化  14-16
    1.1.3 分布式哈希表和Peer-to-Peer 技术  16-17
    1.1.4 基于分布式哈希表的分布式系统  17
  1.2 研究内容  17-18
    1.2.1 Hadoop 工作流程与性能瓶颈分析  17-18
    1.2.2 可扩展分布式系统的研究  18
    1.2.3 MapReduce 系统的可扩展性的提升  18
  1.3 论文主要贡献  18
  1.4 论文结构  18-19
第二章 MAPREDUCE 工作流及性能分析  19-27
  2.1 HADOOP 生态系统概述  19-22
    2.1.1 Hadoop Distributed File System  20-21
    2.1.2 Hadoop MapReduce  21-22
  2.2 HADOOP 可扩展性分析  22-26
    2.2.1 分布式文件系统  22-24
    2.2.2 MapReduce  24-26
  2.3 本章小结  26-27
第三章 可扩展分布式数据处理系统的设计  27-34
  3.1 分布式哈希表技术概述  27-28
  3.2 分布式哈希表与负载均衡  28-32
    3.2.1 负载均衡  28-29
    3.2.2 分布式哈希表的负载均衡  29-30
    3.2.3 virtual nodes  30-32
  3.3 基于无中心节点调度的探索  32-33
  3.4 本章小结  33-34
第四章 ACHILLES 系统  34-43
  4.1 系统架构  34-35
  4.2 分布式哈希表层设计  35-37
  4.3 分布式文件系统层设计  37-39
    4.3.1 元数据设计与存储  38
    4.3.2 数据存储  38
    4.3.3 数据查询  38-39
  4.4 MAPREDUCE 层设计  39-42
  4.5 本章小结  42-43
第五章 原型系统设计与实现  43-65
  5.1 分布式哈希表实现  43-46
    5.1.1 DataLocation  43-45
    5.1.2 RPC_Methods  45
    5.1.3 FingerTable  45-46
    5.1.4 SuccessorList  46
  5.2 分布式文件系统实现  46-55
    5.2.1 Client  48-49
    5.2.2 LocalIOSystem  49-51
    5.2.3 LocalMetadataSystem  51-53
    5.2.4 server  53-55
  5.3 MAPREDUCE 实现  55-65
    5.3.1 MapReduce 层的实现  55-61
    5.3.2 Achilles MapReduce 实例程序  61-63
    5.3.3 运行演示  63-64
    5.3.4 本章小结  64-65
第六章 结论  65-67
  6.1 全文总结  65
  6.2 未来工作  65-67
参考文献  67-70
致谢  70-71
参与课题及发表论文  71-73

相似论文

  1. 基于Map/Reduce框架的分布式日志分析系统的研究及应用,TP311.52
  2. 高速网络环境下的入侵检测系统的研究,TP393.08
  3. 数据中心Hadoop部署与追踪系统研究,TP308
  4. 云环境下MapReduce容错技术的研究,TP302.8
  5. 基于MapReduce的分布式文本数据过滤技术研究与系统实现,TP391.1
  6. 基于段落指纹的大规模近似网页检测算法研究,TP393.092
  7. 基于IaaS云计算的Web应用技术研究,TP393.09
  8. 云计算中MapReduce性能优化及应用,TP3
  9. 基于PXI的通信芯片低成本测试方案,TN407
  10. 非结构化P2P拓扑匹配逻辑网络的构造与搜索优化,TP393.02
  11. 基于MapReduce的聚类算法的并行化研究,TP311.13
  12. MapReduce集群多用户作业调度方法的研究与实现,TP311.13
  13. 基于时空折衷算法的Word文档破解研究,TP391.12
  14. 基于hadoop平台作业调度算法的研究,TP301.6
  15. 基于云计算的并行聚类算法研究,TP311.13
  16. 基于MapReduce的并行决策树分类算法研究与实现,TP311.13
  17. 基于Eucalyptus云平台的Hadoop集群研究,TP338.8
  18. 大规模网络数据中的平行句对抽取,TP393.09
  19. 基于MapReduce的分布式编程框架的设计与实现,TP311.52
  20. 基于MapReduce框架的分布式网络爬行器研究,TP391.3

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机软件 > 程序设计、软件工程 > 软件工程 > 软件开发
© 2012 www.xueweilunwen.com