学位论文 > 优秀研究生学位论文题录展示

MapReduce框架下的聚类和凸包算法研究与实现

作 者: 赵茹
导 师: 王华军
学 校: 成都理工大学
专 业: 计算机软件与理论
关键词: Hadoop 聚类 凸包 MapReduce
分类号: TP311.13
类 型: 硕士论文
年 份: 2013年
下 载: 59次
引 用: 0次
阅 读: 论文下载
 

内容摘要


随着时间的推移和科技的发展以及移动互联网,物联网等新技术的兴起,每年产生的数据都以几何级数增长。并且与传统数据相比,大数据明显朝着数据体量巨大、数据种类繁多、增长速度过快和价值密度较低这四个特性发展。传统的数据处理技术已经不能满足现在大数据背景下的存储、管理和处理任务。所以如何能够以更加快速、高效、低成本的方式从海量数据中挖取有价值的信息从而帮助企业制定决策已经成为数据挖掘技术研究的新方向。而云计算的出现为数据挖掘技术的发展带来了新的机遇。Hadoop正是众多云计算平台之一,如今是Apache开源项目。Hadoop是由分布式文件系统和MapReduce编程框架组成,它的设计理念来自于Google公司发表的关于Google分布式文件系统和MapReduce编程模型的两篇论文。这两项技术充分利用了计算机计算能力和磁盘存储能力,Hadoop可以使用大量的廉价计算机通过集群来处理大规模数据。所以将Hadoop云计算平台和数据挖据算法相结合可以有效的解决分析与处理海量数据时所面临的难题,在降低硬件设备要求的同时提高数据处理能力。本文主要研究的是如何利用Hadoop集群的并行计算能力来实现聚类算法和凸包算法的问题。首先本文对大数据的产生和价值增长做了研究,说明提高数据挖据算法的执行效率的必要性,同时对如今支持大数据处理的科技和工具做了大致的介绍。之后研究Hadoop文件系统的运行机理,存储过程以及MapReduce框架的编程模型,运行原理等。其次,在一定规模的Hadoop集群上对数据进行分布式处理,从而评估整个集群的性能,看是否适用于标准的数据挖掘任务。在MapReduce框架下运行基准性能的搜索和排序任务,对不同系统配置下的效果进行分析。同时提供K-means聚类算法在MapReduce框架下迭代实现。最后,将传统的计算机图形学凸包算法用MapReduce框架并行实现,并结合K-means算法对实验数据进行仿真,表明凸包算法可以应用于MapReduce框架下的数据挖掘算法研究,并且对数据挖掘算法的结果在数据压缩方面做了大致介绍。

全文目录


摘要  4-5
Abstract  5-7
目录  7-9
第1章 绪论  9-17
  1.1 研究背景与意义  9-11
  1.2 国内外研究现状  11-14
    1.2.1 云计算发展现状  11-14
    1.2.2 数据挖掘发展现状  14
  1.3 论文主要工作  14-15
  1.4 论文组织结构  15-17
第2章 大数据概述  17-24
  2.1 大数据产生及价值  17-18
  2.2 处理大数据的科学研究  18-23
    2.2.1 分析大数据的科技  18-20
    2.2.2 处理大数据的技术工具  20-21
    2.2.3 分析数据的可视化研究  21-23
  本章小结  23-24
第3章 HadoopMapReduce 编程模型  24-35
  3.1 云计算架构 Hadoop  24-25
  3.2 Hadoop 分布式文件系统  25-29
    3.2.1 HDFS 设计理念  25-26
    3.2.2 HDFS 的工作节点  26-27
    3.2.3 向 HDFS 中写入数据  27-28
    3.2.4 从 HDFS 中读取数据  28-29
  3.3 MapReduce 编程模型  29-34
    3.3.1 MapReduce 模型  29-31
    3.3.2 MapReduce 工作原理  31-32
    3.3.3 MapReduce 模型中的 Combiner 和 Partitioner  32-34
  本章小结  34-35
第4章 MapReduce 框架的聚类算法研究  35-46
  4.1 MapReduce 数据输入输出基准  35-38
    4.1.1 分布式计算指令 Grep  35-36
    4.1.2 分布式 Sort 计算指令  36-38
  4.2 聚类算法 K-means 的 MapReduce 实现  38-45
    4.2.1 K-means 算法思想  38-39
    4.2.2 MapReduce 框架下 K-means 算法设计  39-42
    4.2.3 MapReduce 框架下 K-means 算法的技术细节  42-45
  本章小结  45-46
第5章 基于 MapReduce 的凸包算法实现  46-53
  5.1 凸包算法研究  46-51
    5.1.1 凸包算法的思想  46-49
    5.1.2 Graham(葛立恒)扫描法的具体实现  49-51
  5.2 凸包算法的 MapReduce 框架实现  51-52
    5.2.1 凸包算法的 MapReduce 实现意义  51
    5.2.2 凸包算法的 MapReduce 设计  51-52
  本章小结  52-53
第6章 开发环境搭建与算法仿真  53-64
  6.1 Hadoop 开发环境平台  53-59
    6.1.1 Hadoop 环境搭建  53-56
    6.1.2 Eclipse 环境开发 MapReduce 程序  56-59
  6.2 算法仿真与实验  59-63
  本章小结  63-64
总结和展望  64-66
  总结  64
  展望  64-66
致谢  66-67
参考文献  67-70
攻读学位期间取得学术成果  70

相似论文

  1. 隐式用户兴趣挖掘的研究与实现,TP311.13
  2. 图像分割中阴影去除算法的研究,TP391.41
  3. 基于图分割的文本提取方法研究,TP391.41
  4. 牡丹EST-SSR引物开发及其亲缘关系分析,S685.11
  5. 高血压前期证候特征研究,R259
  6. 高忠英学术思想与经验总结及运用补肺汤加减治疗呼吸系统常见病用药规律研究,R249.2
  7. K-均值聚类算法的研究与改进,TP311.13
  8. 大学生综合素质测评研究,G645.5
  9. 大豆品种对腐竹品质的影响及其品质评价体系的初步构建,TS214.2
  10. 21个荷花品种遗传多样性的ISSR分析,S682.32
  11. 基于聚类分析的P2P流量识别算法的研究,TP393.02
  12. 基于混合自适应遗传算法的动态网格调度问题研究,TP393.09
  13. 桃杂交后代(F1)幼苗光合效能评价,S662.1
  14. 南通市农业面源污染负荷研究与综合评价,X592
  15. 土壤环境功能区划研究,X321
  16. 基于变异粒子群的聚类算法研究,TP18
  17. 融合粒子群和蛙跳算法的模糊C-均值聚类算法研究,TP18
  18. 基于同化能力杂种优势早期评价的桃光合特性研究,S662.1
  19. 基于分治法的聚类方法研究,TP311.13
  20. 演化聚类算法及其应用研究,TP311.13
  21. 对于系统发育谱法聚类算法的改进,TP311.13

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机软件 > 程序设计、软件工程 > 程序设计 > 数据库理论与系统
© 2012 www.xueweilunwen.com