学位论文 > 优秀研究生学位论文题录展示

基于Hadoop的Apriori算法改进与移植的研究

作 者: 朱安柱
导 师: 郭一平
学 校: 华中科技大学
专 业: 情报学
关键词: Hadoop Apriori算法 MapReduce 关联规则 云计算
分类号: TP311.13
类 型: 硕士论文
年 份: 2012年
下 载: 363次
引 用: 0次
阅 读: 论文下载
 

内容摘要


目的随着计算机技术和互联网的飞速发展,Web2.0的成熟与广泛应用,数据呈现爆炸式增长,传统的数据挖掘算法在处理海量数据时效率低下,云计算的出现为其改进带来了新的方式。云计算通过集群威力,实现了对海量数据的可靠存储和高速计算。Hadoop作为一款比较成熟的开源云计算框架,以其高效、可扩展、低成本等优点在数据挖掘的相关领域得到了广泛应用。基于此,本文将Hadoop与典型的数据挖掘系统进行整合,并选择了新的数据挖掘系统的算法模块部分中应用较为广泛的Apriori算法进行改进,以提高其在处理海量数据时的效率。方法本文采用的研究方法包括:文献研究法,结构化方法,实例分析法和对比分析法。文献研究法可以了解相关研究的现状,还为本文的研究提供理论参考;结构化方法是系统分析常用的方法,对基于Hadoop的云数据挖掘系统架构的分析具有指导意义;通过实例分析法阐述了传统Apriori算法的执行流程并论证了改进算法的可行性;通过对比分析法,分析了改进算法的优势。结果(1)结合典型的数据挖掘系统架构,将其与Hadoop进行整合,提出了基于Hadoop的数据挖掘系统架构,并对各个功能模块进行了简要阐述。(2)在对Apriori算法进行了详细阐述的基础上,针对其在处理海量数据时存在的瓶颈,利用MapReduce编程模式,本文提出了基于数据库划分的并行化改进的思想。通过对改进算法的详细阐述和设计,结合实例论证了改进算法的可行性,并对改进算法进行了分析。(3)通过实例分析,得到改进算法具有更高的效率,降低了时间复杂度和空间复杂度。结论(1)云计算给数据挖掘算法的改进带来了新的方式,云数据挖掘将成为未来的研究趋势。(2)本文的研究具有一定的意义,它为数据挖掘其它算法的改进提供了参考。越来越多的算法将被并行化移植到Hadoop云数据挖掘平台。

全文目录


摘要  6-8
Abstract  8-10
1. 绪论  10-16
  1.1 课题研究背景及意义  10-11
  1.2 国内外研究现状  11-14
  1.3 本文主要工作  14
  1.4 本文组织结构  14-16
2. Hadoop 核心架构研究  16-28
  2.1 Hadoop 概述  16
  2.2 Hadoop MapReduce 编程模型  16-21
  2.3 Hadoop 分布式文件系统 HDFS  21-27
  2.4 本章小结  27-28
3. 基于 Hadoop 的数据挖掘系统分析  28-37
  3.1 数据挖掘概述  28-32
  3.2 典型的数据挖掘系统结构  32-33
  3.3 基于 Hadoop 的数据挖掘系统的分析与设计  33-36
  3.4 本章小结  36-37
4. Apriori 算法相关理论  37-46
  4.1 Apriori 算法简介  37
  4.2 Apriori 算法涉及的概念  37-39
  4.3 Apriori 算法描述  39-44
  4.4 Apriori 算法的应用  44
  4.5 本章小结  44-46
5. Apriori 算法的改进与移植  46-62
  5.1 改进思想  46-47
  5.2 Apriori 移植  47-54
  5.3 算法设计  54-61
  5.4 算法分析  61
  5.5 本章小结  61-62
6. 总结与展望  62-64
  6.1 总结  62-63
  6.2 展望  63-64
致谢  64-65
参考文献  65-69
文献综述  69-79
  参考文献  75-79
附录 (攻读硕士学位期间发表的论文)  79

相似论文

  1. 云计算平台下的动态信任模型的研究,TP309
  2. 基于数据挖掘的税务稽查选案研究,F812.42
  3. 基于Eucalyptus的教育知识服务模型设计与实现,TP393.09
  4. 云网络实验平台研究与实现,TP393.09
  5. 基于数据挖掘的个性化在线教学辅助系统的研究与设计,TP311.13
  6. 基于数据挖掘的课程考核与分析决策系统的设计和实现,TP311.13
  7. 基于云计算的数字图书馆服务模式研究,G250.76
  8. 关联规则挖掘在交通事故成因分析中的应用,U491.31
  9. 关联规则算法在高职院校贫困生认定工作中的应用,G717
  10. Web使用挖掘与网页个性化服务推荐研究,TP311.13
  11. 数据挖掘在学校管理和学生培养中的应用,TP311.13
  12. 基于Map/Reduce框架的分布式日志分析系统的研究及应用,TP311.52
  13. 关联规则挖掘算法及其在职校教学评价系统中的应用研究,TP311.13
  14. FP-Tree算法在自适应学习系统学习者特征模型建立中的应用研究,TP311.13
  15. 数据挖掘在电大开放教育学习指导体系中的应用研究,TP311.13
  16. 基于数据挖掘技术的高校毕业生就业管理信息系统的设计与实现,TP311.52
  17. 面向专科院校的图书管理与智能分析系统,TP311.13
  18. 面向云计算的动态模糊测度方法研究,TP274
  19. 基于云计算的图书馆信息服务研究,G252
  20. 基于云计算的Web教育爬虫,TP391.3
  21. 基于Hadoop的在线购物原型系统的设计与实现,TP311.52

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机软件 > 程序设计、软件工程 > 程序设计 > 数据库理论与系统
© 2012 www.xueweilunwen.com