学位论文 > 优秀研究生学位论文题录展示

面向聚类分析的迭代MapReduce计算模型研究

作 者: 徐伟
导 师: 宮秀军
学 校: 天津大学
专 业: 计算机技术
关键词: 聚类算法 MapReduce 迭代 Hadoop
分类号: TP311.13
类 型: 硕士论文
年 份: 2012年
下 载: 8次
引 用: 0次
阅 读: 论文下载
 

内容摘要


MapReduce计算模型是一种高效的大规模数据处理方式,广泛应用于搜索引擎电子商务以及社交网络等领域然而,运行环境重复初始化静态数据重复载入中间结果对网络的负载压力等原因造成了MapReduce计算模型无法高效的处理迭代计算的问题为此,本文将数据划分为可以被分散的缓存在分布式环境节点内存中的中等规模数据以及不能被分散的缓存在分布式环境节点内存中的大规模数据,并且设计了两种针对不同规模数据的迭代MapReduce效率的优化方案首先,本文设计了用于提高MapReduce计算模型以迭代方式处理中等规模数据时效率的MapCombine方案MapCombine通过给Combine任务添加缓存数据的功能,避免了静态数据重复载入;增加了一个名为Controller的新组件,以其来调度迭代,避免了分布式环境重复初始化;设计了基于HBase的交互层,用于持久化中间数据,保证设计方案的健壮性其次,本文设计了用于提高MapReduce计算模型以迭代方式处理大规模数据时效率的CycleMap方案CycleMap通过增加一个名为Collector的新组件来替代Reduce任务的工作,避免了排序和洗牌这两个过程对执行效率的影响;通过流水线的方式运行任务,间接的达成了整个迭代任务仅需要完成一次初始化工作的设计初衷,避免了分布式环境重复初始化最后,本设计基于以上两个方案,分别实现了K-Means Fuzzy K-Means以及Dirichlet Process三个聚类算法在与基于MapReduce计算模型的Mahout算法库中的相同聚类算法的性能比对中,MapCombine和CycleMap分别取得了1.10和1.05的加速比

全文目录


摘要  3-4
ABSTRACT  4-7
第一章 绪论  7-12
  1.1 研究背景以及意义  7-8
  1.2 国内外研究现状以及存在的问题  8-10
    1.2.1 国内外研究现状  8-10
    1.2.2 国内外研究存在的问题  10
  1.3 本文研究内容  10-11
  1.4 本文章节组织  11-12
第二章 相关技术综述  12-15
  2.1 Hadoop 分布式计算环境  12-13
    2.1.1 Hadoop  12
    2.1.2 HDFS  12-13
  2.2 HBase 分布式数据库  13
    2.2.1 HBase  13
    2.2.2 Zookeeper  13
  2.3 Mahout 分布式算法库  13-15
第三章 数据规模对迭代 MapReduce 效率的影响  15-20
  3.1 MapReduce 计算模型与迭代问题  15-17
    3.1.1 MapReduce 的单程初衷  15-16
    3.1.2 MapReduce 的迭代困境  16-17
  3.2 MapReduce 迭代效率与数据规模  17-20
    3.2.1 不同规模数据的划分方式  17-18
    3.2.2 不同规模数据的优化需求  18-20
第四章 面向中等规模数据的 MapCombine 方案  20-36
  4.1 MapCombine 设计方案概述  20-25
    4.1.1 设计思路  20-21
    4.1.2 加速模型  21-23
    4.1.3 系统架构  23-24
    4.1.4 系统数据流  24-25
  4.2 静态数据载入方式的优化  25-28
    4.2.1 数据本地化传输  25-26
    4.2.2 Combiner 的缓存数据功能  26-27
    4.2.3 Combiner 的均衡负载功能  27-28
    4.2.4 数据规模的限制  28
  4.3 以单程模式完成迭代  28-32
    4.3.1 Controller 的迭代调度功能  28-29
    4.3.2 标志位迭代控制算法  29-30
    4.3.3 更进一步的负载均衡  30-31
    4.3.4 故障恢复能力  31-32
  4.4 实验结果展示及分析  32-36
    4.4.1 实验环境及实验数据  32-33
    4.4.2 实验结果展示及分析  33-36
第五章 面向大规模数据的 CycleMap 方案  36-50
  5.1 CycleMap 设计方案概述  36-41
    5.1.1 设计思路  36-37
    5.1.2 加速模型  37-39
    5.1.3 系统架构  39-40
    5.1.4 系统数据流  40-41
  5.2 以流水线的方式完成迭代  41-44
    5.2.1 流水线方式概述  41-42
    5.2.2 Map 任务的输入过程  42
    5.2.3 Collector 的迭代调度功能  42-43
    5.2.4 重用 Java 虚拟机  43-44
  5.3 中间结果传输过程的优化  44-46
    5.3.1 中间键值的洗牌与排序  44-45
    5.3.2 Reduce 任务的分解与转移  45-46
    5.3.3 持久化中间结果  46
  5.4 实验结果展示及分析  46-50
    5.4.1 实验环境及实验数据  46-47
    5.4.2 实验结果展示及分析  47-50
第六章 总结与展望  50-51
参考文献  51-54
发表论文和参加科研情况说明  54-55
致谢  55

相似论文

  1. 基于粒子群算法求曲线/曲面间最小距离方法,O182
  2. K-均值聚类算法的研究与改进,TP311.13
  3. 基于对数正态分布异方差模型的统计推断,O212.1
  4. 聚合物片材加热过程的温度分布与控制技术研究,TQ320.6
  5. 深水海底管道S型铺管法安装分析,TE973
  6. 细菌聚类算法及其在图像分割问题中的研究与应用,TP391.41
  7. 基于变异粒子群的聚类算法研究,TP18
  8. K-means聚类优化算法的研究,TP311.13
  9. 融合粒子群和蛙跳算法的模糊C-均值聚类算法研究,TP18
  10. 基于遗传算法和粗糙集的聚类算法研究,TP18
  11. 曹庄煤矿多区域通风优化研究,TD724
  12. 高阶中立型泛函微分方程非振动解的存在性及其迭代逼近,O175
  13. 基于Map/Reduce框架的分布式日志分析系统的研究及应用,TP311.52
  14. 基于MATLAB的微地震震源定位的研究与实现,P315.3;TD326
  15. 钢铁企业板坯设计与匹配优化问题研究,TF777
  16. 三维人脸识别系统研究,TP391.41
  17. 具有再生再利用/循环的水网络设计研究,X703
  18. 基于Hadoop的在线购物原型系统的设计与实现,TP311.52
  19. 数据挖掘技术在高职教师绩效考核中的应用研究,TP311.13
  20. 基于Hadoop的移动学习系统设计与实现,G434
  21. 模糊C均值聚类算法的相关问题研究,TP311.13

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机软件 > 程序设计、软件工程 > 程序设计 > 数据库理论与系统
© 2012 www.xueweilunwen.com