学位论文 > 优秀研究生学位论文题录展示

面向海量数据的快速挖掘算法研究

作　者: 朱晓峰
导　师: 李玲娟
学　校: 南京邮电大学
专　业: 计算机软件与理论
关键词: 海量数据关联规则增量挖掘云计算
分类号: TP311.13
类　型: 硕士论文
年　份: 2012年
下　载: 303次
引　用: 0次
阅　读: 论文下载

内容摘要

数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的数据中提取隐含在其中的、人们事先未知的、但又是潜在有用的信息和知识的过程。随着信息技术的高速发展,人们积累的数据量急剧增长,动辄以TB计算,如何从海量的数据中提取有用的信息已经成为必须解决的问题。针对海量数据的挖掘,分布式并行处理和增量式处理是有效的解决方案。云计算是一种新兴的共享基础架构的计算模型,它擅长处理大规模数据和进行大规模计算,它是分布式计算的延伸和拓展,并行和分布是云计算的关键。因此本文结合云计算,以关联规则的增量挖掘为切入点,提出解决海量数据快速挖掘的新思路。本文介绍了数据挖掘的定义、功能、步骤和挑战,重点分析了关联规则挖掘算法；介绍了云计算的概念、特点、形式和关键技术,重点分析了典型的云计算平台Hadoop的分布式文件系统HDFS和并行编程模型MapReduce的实现原理。在此基础上,重点研究了关联规则挖掘中大频繁项目集的并行化挖掘算法,提出了基于云计算的快速关联规则增量挖掘算法C-FUP (Cloud Computing Based FUP);以提高并行化效率为目标,对Hadoop中HDFS的数据集分配方法进行改进,设计了一种能根据集群中异构节点的计算性能进行数据集分配的方法DAMBNP (Dataset Allocation Method Based on Node Performance);并对Hadoop的性能进行分析,针对其对大量小文件的处理能力不足的问题提出了解决思路。为了验证所提出的算法和方法的有效性,本文设计了基于Hadoop的仿真实验,实验结果表明,C-FUP算法能够很好地适用于海量数据的关联规则增量挖掘,并具有良好的可伸缩性和可扩展性；数据集分配方法DAMBNP能有效地提高C-FUP算法在云计算平台上的执行效率。论文对海量数据的快速挖掘做了有益的研究工作。

全文目录

摘要  4-5
ABSTRACT  5-8
第一章引言  8-11
  1.1 课题的背景与意义  8-9
  1.2 本文的主要工作  9
  1.3 论文内容的组织  9-11
第二章数据挖掘技术与云计算技术概述与分析  11-28
  2.1 数据挖掘技术概述  11-14
    2.1.1 数据挖掘的定义  11
    2.1.2 数据挖掘的功能  11-13
    2.1.3 数据挖掘的步骤  13
    2.1.4 数据挖掘面临的挑战  13-14
  2.2 云计算概述  14-17
    2.2.1 云计算的基本概念  14
    2.2.2 云计算的特点  14-15
    2.2.3 云计算的形式  15-16
    2.2.4 云计算的关键技术  16-17
  2.3 Hadoop架构分析  17-27
    2.3.1 Google文件系统GFS  18-19
    2.3.2 MapReduce编程模型  19-20
    2.3.3 Hadoop分布式文件系统HDFS介绍  20-25
    2.3.4 MapReduce并行编程模型在Hadoop中的实现  25-27
  2.4 本章小节  27-28
第三章基于云计算的快速关联规则增量挖掘算法  28-36
  3.1 关联规则增量挖掘算法分析  28-31
    3.1.1 关联规则增量挖掘算法的出现背景  28
    3.1.2 FUP算法描述  28-31
    3.1.3 FUP算法的特征  31
  3.2 FUP算法基于Hadoop的并行化改进  31-34
    3.2.1 C-FUP算法的基本思想  31-32
    3.2.2 C-FUP算法实现  32-34
  3.3 本章小节  34-36
第四章面向快速挖掘的Hadoop平台改进  36-49
  4.1 HDFS数据集分配方法的改进  36-42
    4.1.1 云计算环境下的数据集分配方法  36-37
    4.1.2 Hadoop中HDFS的数据集分配方法  37-41
    4.1.3 基于节点计算性能的数据集分配方法的设计  41-42
  4.2 Hadoop对大量小文件的处理  42-47
    4.2.1 关于HDFS的性能分析  42-44
    4.2.2 HDFS处理大量小文件时的问题  44
    4.2.3 大量小文件在MapReduce中的问题  44
    4.2.4 解决思路  44-47
  4.3 本章小节  47-49
第五章仿真与性能分析  49-62
  5.1 Hadoop平台搭建  49-54
    5.1.1 完全分布模式的配置  50-52
    5.1.2 伪分布模式的配置  52-54
  5.2 C-FUP算法的仿真和性能测试  54-59
    5.2.1 实验数据及实验过程  54-55
    5.2.2 单机伪分布环境下的性能比较  55-57
    5.2.3 完全分布环境下的性能比较  57-58
    5.2.4 节点数与数据量对相对加速比的影响  58-59
  5.3 改进的HDFS的仿真和性能测试  59-61
  5.4 本章小节  61-62
第六章总结与展望  62-63
  6.1 总结  62
  6.2 展望  62-63
致谢  63-64
参考文献  64-66
攻读硕士学位期间的学术论文和参与的科研项目  66

面向海量数据的快速挖掘算法研究

内容摘要

全文目录

相似论文