学位论文 > 优秀研究生学位论文题录展示

面向海量数据的快速挖掘算法研究

作 者: 朱晓峰
导 师: 李玲娟
学 校: 南京邮电大学
专 业: 计算机软件与理论
关键词: 海量数据 关联规则增量挖掘 云计算
分类号: TP311.13
类 型: 硕士论文
年 份: 2012年
下 载: 303次
引 用: 0次
阅 读: 论文下载
 

内容摘要


数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的数据中提取隐含在其中的、人们事先未知的、但又是潜在有用的信息和知识的过程。随着信息技术的高速发展,人们积累的数据量急剧增长,动辄以TB计算,如何从海量的数据中提取有用的信息已经成为必须解决的问题。针对海量数据的挖掘,分布式并行处理和增量式处理是有效的解决方案。云计算是一种新兴的共享基础架构的计算模型,它擅长处理大规模数据和进行大规模计算,它是分布式计算的延伸和拓展,并行和分布是云计算的关键。因此本文结合云计算,以关联规则的增量挖掘为切入点,提出解决海量数据快速挖掘的新思路。本文介绍了数据挖掘的定义、功能、步骤和挑战,重点分析了关联规则挖掘算法;介绍了云计算的概念、特点、形式和关键技术,重点分析了典型的云计算平台Hadoop的分布式文件系统HDFS和并行编程模型MapReduce的实现原理。在此基础上,重点研究了关联规则挖掘中大频繁项目集的并行化挖掘算法,提出了基于云计算的快速关联规则增量挖掘算法C-FUP (Cloud Computing Based FUP);以提高并行化效率为目标,对Hadoop中HDFS的数据集分配方法进行改进,设计了一种能根据集群中异构节点的计算性能进行数据集分配的方法DAMBNP (Dataset Allocation Method Based on Node Performance);并对Hadoop的性能进行分析,针对其对大量小文件的处理能力不足的问题提出了解决思路。为了验证所提出的算法和方法的有效性,本文设计了基于Hadoop的仿真实验,实验结果表明,C-FUP算法能够很好地适用于海量数据的关联规则增量挖掘,并具有良好的可伸缩性和可扩展性;数据集分配方法DAMBNP能有效地提高C-FUP算法在云计算平台上的执行效率。论文对海量数据的快速挖掘做了有益的研究工作。

全文目录


摘要  4-5
ABSTRACT  5-8
第一章 引言  8-11
  1.1 课题的背景与意义  8-9
  1.2 本文的主要工作  9
  1.3 论文内容的组织  9-11
第二章 数据挖掘技术与云计算技术概述与分析  11-28
  2.1 数据挖掘技术概述  11-14
    2.1.1 数据挖掘的定义  11
    2.1.2 数据挖掘的功能  11-13
    2.1.3 数据挖掘的步骤  13
    2.1.4 数据挖掘面临的挑战  13-14
  2.2 云计算概述  14-17
    2.2.1 云计算的基本概念  14
    2.2.2 云计算的特点  14-15
    2.2.3 云计算的形式  15-16
    2.2.4 云计算的关键技术  16-17
  2.3 Hadoop架构分析  17-27
    2.3.1 Google文件系统GFS  18-19
    2.3.2 MapReduce编程模型  19-20
    2.3.3 Hadoop分布式文件系统HDFS介绍  20-25
    2.3.4 MapReduce并行编程模型在Hadoop中的实现  25-27
  2.4 本章小节  27-28
第三章 基于云计算的快速关联规则增量挖掘算法  28-36
  3.1 关联规则增量挖掘算法分析  28-31
    3.1.1 关联规则增量挖掘算法的出现背景  28
    3.1.2 FUP算法描述  28-31
    3.1.3 FUP算法的特征  31
  3.2 FUP算法基于Hadoop的并行化改进  31-34
    3.2.1 C-FUP算法的基本思想  31-32
    3.2.2 C-FUP算法实现  32-34
  3.3 本章小节  34-36
第四章 面向快速挖掘的Hadoop平台改进  36-49
  4.1 HDFS数据集分配方法的改进  36-42
    4.1.1 云计算环境下的数据集分配方法  36-37
    4.1.2 Hadoop中HDFS的数据集分配方法  37-41
    4.1.3 基于节点计算性能的数据集分配方法的设计  41-42
  4.2 Hadoop对大量小文件的处理  42-47
    4.2.1 关于HDFS的性能分析  42-44
    4.2.2 HDFS处理大量小文件时的问题  44
    4.2.3 大量小文件在MapReduce中的问题  44
    4.2.4 解决思路  44-47
  4.3 本章小节  47-49
第五章 仿真与性能分析  49-62
  5.1 Hadoop平台搭建  49-54
    5.1.1 完全分布模式的配置  50-52
    5.1.2 伪分布模式的配置  52-54
  5.2 C-FUP算法的仿真和性能测试  54-59
    5.2.1 实验数据及实验过程  54-55
    5.2.2 单机伪分布环境下的性能比较  55-57
    5.2.3 完全分布环境下的性能比较  57-58
    5.2.4 节点数与数据量对相对加速比的影响  58-59
  5.3 改进的HDFS的仿真和性能测试  59-61
  5.4 本章小节  61-62
第六章 总结与展望  62-63
  6.1 总结  62
  6.2 展望  62-63
致谢  63-64
参考文献  64-66
攻读硕士学位期间的学术论文和参与的科研项目  66

相似论文

  1. 海量数据压缩、操作和处理方法的研究,TP311.13
  2. 基于BAP的数据压缩、操作与查询处理系统的实现,TP311.13
  3. 云计算平台下的动态信任模型的研究,TP309
  4. 基于Eucalyptus的教育知识服务模型设计与实现,TP393.09
  5. 云网络实验平台研究与实现,TP393.09
  6. 基于云计算的数字图书馆服务模式研究,G250.76
  7. 一种面向海量数据综合评价的树状数据结构的设计与研究,TP311.12
  8. 面向云计算的动态模糊测度方法研究,TP274
  9. 基于云计算的图书馆信息服务研究,G252
  10. 基于云计算的Web教育爬虫,TP391.3
  11. 云计算客户端应用系统的研究与开发,TP311.52
  12. 基于Hadoop的在线购物原型系统的设计与实现,TP311.52
  13. 基于Hadoop的移动学习系统设计与实现,G434
  14. 云计算在权限管理中的应用研究,TP309
  15. 基于P2P技术的网络虚拟地理环境原型系统设计与实现,TP393.09
  16. 基于MPSO算法的云计算任务调度策略研究,TP3
  17. 基于信誉度的云环境下资源管理的研究,TP315
  18. 云计算技术及其在电子商务物流中心设计与运行中的应用,F724.6;F252
  19. 构建基于云计算的企业信息系统关键技术研究,TP315
  20. 基于Google平台促销模块与商品模块的设计与实现,TP311.52
  21. 面向资源区域化及流量本地化的网络优化,TP393.06

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机软件 > 程序设计、软件工程 > 程序设计 > 数据库理论与系统
© 2012 www.xueweilunwen.com