学位论文 > 优秀研究生学位论文题录展示

基于分布式计算的数据挖掘研究和实现

作 者: 冉鹏
导 师: 任宏萍
学 校: 华中科技大学
专 业: 软件工程
关键词: 分布式计算平台 映射-规约 数据挖掘
分类号: TP311.13
类 型: 硕士论文
年 份: 2010年
下 载: 251次
引 用: 0次
阅 读: 论文下载
 

内容摘要


在互联网高速发展和上网人群急剧增长的今天,提供网络服务的互联网公司每天都生成数据量达TB级别的Web数据,这些数据记录了用户的访问行为,它们蕴藏着很高价值的信息。分析和挖掘这些数据中潜藏的信息可以得到一些有趣模式,这些有趣的模式可以帮助互联网公司提供更好的网络服务。互联网企业经常用数据挖掘中的关联规则挖掘算法来分析用户的浏览行为,提高网站的用户黏度,进而提高网站的盈利。由于互联网数据具有海量、多样、异构、动态变化等特性,利用传统的数据库来分析处理这些数据,在数据的存储空间和处理效率上已经满足不了要求。分布式计算平台的出现解决了海量数据的存储和计算的瓶颈,让海量数据的数据挖掘成为了可能。将传统的关联规则挖掘算法运用在分布式计算平台上是海量数据挖掘的核心问题,传统的关联规则挖掘算法只适合于对集中存储的数据进行分析挖掘。在面对分布式计算平台的分布式文件系统时,这些算法就失效了。改进后的Apriori算法,它很好的适应了Hadoop的Map/Reduce计算模型,这样使得数据挖掘的所有步骤——数据清理、数据转换和数据挖掘都能适用在分布式计算平台上。通过改进后的Apriori算法挖掘出的模式满足实际业务逻辑要求,这些模式对于互联网公司有很高参考价值。本课题的特点是将研究的模型与实际业务应用相结合,利用前沿的分布式计算技术来解决传统数据挖掘方案在海量数据的数据挖掘上的不足,改进后的数据挖掘算法很好的适应了分布式计算平台Hadoop,这为以后其他的数据挖掘算法运用到Hadoop上起到了参考作用,而使用丰富的数据挖掘算法可以发现数据中蕴藏着的更多价值。

全文目录


摘要  4-5
Abstract  5-8
1 绪论  8-14
  1.1 课题背景  8-10
  1.2 课题研究的目的与意义  10-11
  1.3 国内外研究现状  11-12
  1.4 论文主要工作  12-14
2 分布式计算与数据挖掘介绍  14-24
  2.1 分布式计算框架  14-16
  2.2 Hadoop 平台分析  16-18
  2.3 Hadoop 的上层封装工具Hive 和数据仓库  18-19
  2.4 数据挖掘  19-22
  2.5 本章小结  22-24
3 数据挖掘算法的改进  24-32
  3.1 数据挖掘分析  24-27
  3.2 关联规则挖掘算法Apriori 算法改进设计  27-31
  3.3 本章小结  31-32
4 数据挖掘在分布式计算平台上的实现  32-52
  4.1 数据准备的实现  32-34
  4.2 数据清理的实现  34-36
  4.3 数据转换的实现  36-40
  4.4 数据挖掘的实现  40-47
  4.5 算法性能测试与分析  47-51
  4.6 本章小结  51-52
5 总结与展望  52-54
  5.1 全文总结  52-53
  5.2 展望  53-54
致谢  54-55
参考文献  55-58

相似论文

  1. 基于数据挖掘技术的保健品营销研究,F426.72
  2. 高忠英学术思想与经验总结及运用补肺汤加减治疗呼吸系统常见病用药规律研究,R249.2
  3. 张炳厚学术思想与临床经验总结及应用地龟汤类方治疗慢性肾脏病的经验研究,R249.2
  4. Bicluster数据分析软件设计与实现,TP311.52
  5. 基于变异粒子群的聚类算法研究,TP18
  6. 融合粒子群和蛙跳算法的模糊C-均值聚类算法研究,TP18
  7. 基于遗传算法和粗糙集的聚类算法研究,TP18
  8. 基于数据挖掘的税务稽查选案研究,F812.42
  9. 面向社区教育的个性化学习系统的研究与实现,TP391.6
  10. 基于关联规则挖掘的入侵检测系统的研究与实现,TP393.08
  11. 数据仓库技术在银行客户管理系统中的研究和实现,TP315
  12. 基于Moodle的高职网络教学系统设计与实现,TP311.52
  13. 教学质量评估数据挖掘系统设计与开发,TP311.13
  14. 关联规则算法在高职院校贫困生认定工作中的应用,G717
  15. 基于数据挖掘技术在城市供水的分析与决策,F299.24;F224
  16. 数据挖掘技术在电视用户满意度分析中的应用研究,TP311.13
  17. Web使用挖掘与网页个性化服务推荐研究,TP311.13
  18. 数据挖掘在学校管理和学生培养中的应用,TP311.13
  19. 高校毕业生就业状况监测系统研究,G647.38
  20. 基于数据仓库的药品监管辅助决策支持系统的设计与实现,TP311.13
  21. 基于数据挖掘的信用卡客户激活与响应度研究,F832.2

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机软件 > 程序设计、软件工程 > 程序设计 > 数据库理论与系统
© 2012 www.xueweilunwen.com