学位论文 > 优秀研究生学位论文题录展示

面向聚类分析的迭代MapReduce计算模型研究

作　者: 徐伟
导　师: 宮秀军
学　校: 天津大学
专　业: 计算机技术
关键词: 聚类算法 MapReduce 迭代 Hadoop
分类号: TP311.13
类　型: 硕士论文
年　份: 2012年
下　载: 8次
引　用: 0次
阅　读: 论文下载

内容摘要

MapReduce计算模型是一种高效的大规模数据处理方式，广泛应用于搜索引擎电子商务以及社交网络等领域然而，运行环境重复初始化静态数据重复载入中间结果对网络的负载压力等原因造成了MapReduce计算模型无法高效的处理迭代计算的问题为此，本文将数据划分为可以被分散的缓存在分布式环境节点内存中的中等规模数据以及不能被分散的缓存在分布式环境节点内存中的大规模数据，并且设计了两种针对不同规模数据的迭代MapReduce效率的优化方案首先，本文设计了用于提高MapReduce计算模型以迭代方式处理中等规模数据时效率的MapCombine方案MapCombine通过给Combine任务添加缓存数据的功能，避免了静态数据重复载入；增加了一个名为Controller的新组件，以其来调度迭代，避免了分布式环境重复初始化；设计了基于HBase的交互层，用于持久化中间数据，保证设计方案的健壮性其次，本文设计了用于提高MapReduce计算模型以迭代方式处理大规模数据时效率的CycleMap方案CycleMap通过增加一个名为Collector的新组件来替代Reduce任务的工作，避免了排序和洗牌这两个过程对执行效率的影响；通过流水线的方式运行任务，间接的达成了整个迭代任务仅需要完成一次初始化工作的设计初衷，避免了分布式环境重复初始化最后，本设计基于以上两个方案，分别实现了K-Means Fuzzy K-Means以及Dirichlet Process三个聚类算法在与基于MapReduce计算模型的Mahout算法库中的相同聚类算法的性能比对中，MapCombine和CycleMap分别取得了1.10和1.05的加速比

全文目录

摘要  3-4
ABSTRACT  4-7
第一章绪论  7-12
  1.1 研究背景以及意义  7-8
  1.2 国内外研究现状以及存在的问题  8-10
    1.2.1 国内外研究现状  8-10
    1.2.2 国内外研究存在的问题  10
  1.3 本文研究内容  10-11
  1.4 本文章节组织  11-12
第二章相关技术综述  12-15
  2.1 Hadoop 分布式计算环境  12-13
    2.1.1 Hadoop  12
    2.1.2 HDFS  12-13
  2.2 HBase 分布式数据库  13
    2.2.1 HBase  13
    2.2.2 Zookeeper  13
  2.3 Mahout 分布式算法库  13-15
第三章数据规模对迭代 MapReduce 效率的影响  15-20
  3.1 MapReduce 计算模型与迭代问题  15-17
    3.1.1 MapReduce 的单程初衷  15-16
    3.1.2 MapReduce 的迭代困境  16-17
  3.2 MapReduce 迭代效率与数据规模  17-20
    3.2.1 不同规模数据的划分方式  17-18
    3.2.2 不同规模数据的优化需求  18-20
第四章面向中等规模数据的 MapCombine 方案  20-36
  4.1 MapCombine 设计方案概述  20-25
    4.1.1 设计思路  20-21
    4.1.2 加速模型  21-23
    4.1.3 系统架构  23-24
    4.1.4 系统数据流  24-25
  4.2 静态数据载入方式的优化  25-28
    4.2.1 数据本地化传输  25-26
    4.2.2 Combiner 的缓存数据功能  26-27
    4.2.3 Combiner 的均衡负载功能  27-28
    4.2.4 数据规模的限制  28
  4.3 以单程模式完成迭代  28-32
    4.3.1 Controller 的迭代调度功能  28-29
    4.3.2 标志位迭代控制算法  29-30
    4.3.3 更进一步的负载均衡  30-31
    4.3.4 故障恢复能力  31-32
  4.4 实验结果展示及分析  32-36
    4.4.1 实验环境及实验数据  32-33
    4.4.2 实验结果展示及分析  33-36
第五章面向大规模数据的 CycleMap 方案  36-50
  5.1 CycleMap 设计方案概述  36-41
    5.1.1 设计思路  36-37
    5.1.2 加速模型  37-39
    5.1.3 系统架构  39-40
    5.1.4 系统数据流  40-41
  5.2 以流水线的方式完成迭代  41-44
    5.2.1 流水线方式概述  41-42
    5.2.2 Map 任务的输入过程  42
    5.2.3 Collector 的迭代调度功能  42-43
    5.2.4 重用 Java 虚拟机  43-44
  5.3 中间结果传输过程的优化  44-46
    5.3.1 中间键值的洗牌与排序  44-45
    5.3.2 Reduce 任务的分解与转移  45-46
    5.3.3 持久化中间结果  46
  5.4 实验结果展示及分析  46-50
    5.4.1 实验环境及实验数据  46-47
    5.4.2 实验结果展示及分析  47-50
第六章总结与展望  50-51
参考文献  51-54
发表论文和参加科研情况说明  54-55
致谢  55

面向聚类分析的迭代MapReduce计算模型研究

内容摘要

全文目录

相似论文