学位论文 > 优秀研究生学位论文题录展示

基于MapReduce的分布式编程框架的设计与实现

作 者: 盘隆
导 师: 刘远超;邵付东
学 校: 哈尔滨工业大学
专 业: 软件工程
关键词: 分布式计算 海量数据处理 MapReduce 容错 中间结果分类
分类号: TP311.52
类 型: 硕士论文
年 份: 2011年
下 载: 202次
引 用: 0次
阅 读: 论文下载
 

内容摘要


作为一个拥有广大用户群的桌面产品,腾讯公司QQ电脑管家每天都会产生海量的用户数据。后台中心对于用户数据的处理与分析对于改进产品具有重大的意义。公司数据平台部的计算资源需要支持核心业务因而申请成本高,所以搭建一个灵活有效的分布式计算框架,利用空闲的开发机计算资源来完成日常统计与数据处理工作具有较高的实际意义。MapReduce作为一个海量数据处理的架构被广泛用于各大领域之中。本文通过对于MapReduce架构的研究,进而提出并设计实现了一种基于MapReduce的分布式编程框架来简化对于日常海量数据处理的编程工作,以满足管家后台的数据处理需求。在设计与实现过程中,重点放在了此编程框架的任务调度与容错功能上面,以期待获得良好的错误恢复能力。在功能测试方面,本文使用一个QQ加速状态上报的词频统计程序来进行测试,并人工对一个处理节点施加障碍以验证容错机制是否可以探查到落后任务的产生。在性能测试方面,本文使用了词频统计程序与记录排序程序来模拟日常需求中的统计与数据处理问题。基于这两个测试程序对本框架的任务响应时间,总机器时间与加速比进行了分析,以证明本编程框架的确具备处理海量数据的能力。通过以上完成的工作,本框架可以搭建在后台中心的开发机群上以完成管家日常统计工作与数据处理工作的计算任务,并具有良好的计算能力、容错性与可扩展性。

全文目录


摘要  4-5
Abstract  5-8
第1章 绪论  8-14
  1.1 课题背景及研究的目的和意义  8-9
  1.2 MapReduce 及其相关理论的发展概况  9-12
    1.2.1 MapReduce 研究综述  9-11
    1.2.2 并行计算研究综述  11-12
  1.3 本文的主要研究内容  12-14
第2章 系统需求分析与概要设计  14-30
  2.0 应用背景分析  14-15
  2.1 业务流程分析  15-18
  2.2 体系结构与功能结构  18-24
    2.2.1 作业控制模块  20
    2.2.2 Master 任务调度模块  20-21
    2.2.3 Map 工作节点  21-23
    2.2.4 Reduce 工作节点  23-24
  2.4 用户接口  24-25
  2.5 关键技术  25-28
    2.5.1 容错  25-27
    2.5.2 中间结果分类  27-28
  2.6 与其它MapReduce 的框架实现的差异  28-29
  2.7 本章小结  29-30
第3章 系统详细设计与实现  30-45
  3.1 引言  30
  3.2 作业控制模块  30-35
    3.2.1 配置输入与文件校验  33-34
    3.2.2 初始化输入数据  34
    3.2.3 启动工作节点  34-35
    3.2.4 分发程序与数据  35
  3.3 Master 任务调度  35-40
    3.3.1 任务调度中的关键策略  35-36
    3.3.2 Master 节点详细设计  36-40
  3.4 Map 工作节点  40-42
  3.5 Reduce 工作节点  42-44
  3.6 本章小结  44-45
第4章 系统测试  45-56
  4.1 系统功能测试  45-49
    4.1.1 作业控制模块启动作业  46-47
    4.1.2 Master 任务调度  47-48
    4.1.3 计算结果  48-49
  4.2 系统性能测试  49-55
    4.2.1 性能测试指标  49-50
    4.2.2 性能测试程序  50-51
    4.2.3 性能测试结果  51-54
    4.2.4 性能问题与优化  54-55
  4.3 本章小结  55-56
结论  56-58
参考文献  58-62
致谢  62-63
个人简历  63

相似论文

  1. 偏振光/地磁/GPS/SINS组合导航算法研究,V249.328
  2. 并行分布式网络模拟器PDNS容错技术的研究,TP302.8
  3. 移动计算环境下检查点技术研究与Petri网建模,TP301.1
  4. 基于Map/Reduce框架的分布式日志分析系统的研究及应用,TP311.52
  5. 构建分布式系统的关键技术研究与实现,TP338.8
  6. 基于数据流异常检测的嵌入式软件容错研究,TP368.1
  7. 移动代理电子商务环境下的安全迁移模型研究,TP393.08
  8. 高速网络环境下的入侵检测系统的研究,TP393.08
  9. 无线网络中视频传输容错及转码技术研究,TN919.81
  10. 基于Linux平台的局域网云监控系统的分析与实现,TP311.52
  11. 并联式六维地震模拟振动台的设计与研究,TH762.2
  12. 云环境下MapReduce容错技术的研究,TP302.8
  13. 非线性系统的容错保性能控制研究,TP13
  14. 不确定系统的鲁棒故障估计与主动容错控制研究,TP13
  15. 列控系统及其计算机网络的故障诊断与故障容错研究,TP393.06
  16. 网络化控制系统故障诊断与容错控制研究,TP273
  17. 局部扭立方体LTQ_n容错性研究,O157.5
  18. 交叉立方体的容错泛圈性研究,O157.5
  19. 容错计算机系统双机容错软件设计与实现,TP302.8
  20. 一个可扩展的MapReduce原型设计与实现,TP311.52
  21. 基于MapReduce的分布式文本数据过滤技术研究与系统实现,TP391.1

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机软件 > 程序设计、软件工程 > 软件工程 > 软件开发
© 2012 www.xueweilunwen.com