学位论文 > 优秀研究生学位论文题录展示

基于MapReduce的海洋环境数据关联规则发现研究

作 者: 常耀辉
导 师: 于戈
学 校: 东北大学
专 业: 计算机软件与理论
关键词: MapReduce 海洋Argo数据 温度/盐度变化 关联规则 数据挖掘 Hadoop
分类号: TP311.13
类 型: 硕士论文
年 份: 2011年
下 载: 89次
引 用: 0次
阅 读: 论文下载
 

内容摘要


海洋对全球气候变化具有重大影响。对不同海域的海洋环境数据进行关联分析,使得我们可以从海洋环境数据中发现海洋气候异常变化规律,从而为全球气候变化预测提供智力支持。本文以海洋环境数据中的温度和盐度数据为例,研究不同海域的海洋温度和盐度变化之间的关联。与传统的购物篮分析不同,海洋温度盐度变化之间的关联挖掘属于典型的事务间事务的关联分析,使得关联分析不再局限于事务内。因此,挖掘海洋温度盐度变化模式是一项十分艰巨的任务。本研究立足于海洋Argo浮标观测数据,应用MapReduce编程框架对不同海域间温度盐度变化事件进行了关联分析。论文主要工作如下:(1)分析了Argo浮标观测数据文件的特点,应用MapReduce编程框架从Argo数据中提取了2000年1月至2010年5月间全球海域的温度盐度数据,并对其进行了数据规约、数据变换等预处理工作。(2)结合事务间事务的关联分析方法对不同海域的海洋温度盐度变化事务特点进行了深入研究与分析,提出了基于邻域的时空事务分析方法,并给出了两种空间划分模型。对事务间事务的维度属性做了分类属性和量化属性的区分,在理论上对事务间事务关联分析理论进行了扩展。(3)在分析海洋温度盐度变化事务的维度属性特点的基础上,提出了事务间事务维度属性变换的理论与方法,对事务的属性维数进行了有效约简。(4)重新定义了海洋温度盐度变化事务中项之间的次序,对预处理后的海洋温度盐度变化数据使用基于MapReduce框架的并行FP-Growth算法进行了频繁模式发现,生成了关联规则并对影响频繁项集的因素做了细致的实验分析。通过理论分析和实验验证,证明了本文提出的将MapReduce框架应用于海洋温度盐度关联分析的可行性和正确性。

全文目录


摘要  5-6
Abstract  6-10
第1章 绪论  10-14
  1.1 研究背景  10-11
  1.2 问题的提出  11
  1.3 本文研究内容  11-12
  1.4 本文组织结构  12-14
第2章 相关理论与技术  14-26
  2.1 数据挖掘  14
  2.2 关联规则  14-15
    2.2.1 事务内关联  14-15
    2.2.2 事务间关联  15
  2.3 事务间关联  15-17
    2.3.1 事务数据库  15-16
    2.3.2 滑动窗口  16
    2.3.3 事务间事务  16-17
  2.4 事务间关联国内外研究现状  17-22
    2.4.1 事务间关联挖掘算法分类  18
    2.4.2 Apriori-like挖掘算法  18-19
    2.4.3 FP-Growth-like挖掘算法  19-22
  2.5 数据密集型计算  22-24
    2.5.1 MapReduce  22-23
    2.5.2 Apache Hadoop  23-24
  2.6 本章小结  24-26
第3章 问题分析与算法设计  26-44
  3.1 研究路线  26-27
  3.2 邻域的提出  27-28
    3.2.1 问题描述  27
    3.2.2 邻域定义  27-28
  3.3 空间参考模型  28-31
    3.3.1 笛卡尔参考模型  29
    3.3.2 中心参考模型  29-31
    3.3.3 模型的选择  31
  3.4 事务定义  31-34
    3.4.1 基础定义  31
    3.4.2 海洋事务数据库  31-32
    3.4.3 海洋温度盐度事务  32-33
    3.4.4 定义事务间关联规则  33-34
  3.5 量化属性转换  34-36
    3.5.1 温度盐度变化事件  34-35
    3.5.2 海域空间位置编码  35
    3.5.3 海洋事务维度变换  35-36
  3.6 事务间关联规则发现  36
    3.6.1 数据预处理  36
    3.6.2 频繁模式发现  36
    3.6.3 关联规则生成  36
  3.7 分布并行的FP-Growth算法  36-42
    3.7.1 FP-Growth算法并行可行性  36-38
    3.7.2 并行FP-Growth算法思想  38
    3.7.3 基于MapReduce的并行FP-Growth算法  38-40
    3.7.4 并行计数  40
    3.7.5 并行FP-Growth  40-42
    3.7.6 结果聚集  42
  3.8 本章小结  42-44
第4章 数据预处理  44-60
  4.1 数据获取  44
    4.1.1 数据来源  44
    4.1.2 Argo质量控制数据集  44
  4.2 数据规约  44-47
    4.2.1 Argo文件格式  44-46
    4.2.2 数据规约  46-47
  4.3 海域空间划分  47-50
    4.3.1 海域空间划分方法  47-48
    4.3.2 空间划分算法  48
    4.3.3 海域划分流程  48-49
    4.3.4 数据加载保存算法  49-50
  4.4 考察深度选择  50-51
  4.5 Zone数据变换  51-56
    4.5.1 数据变换流程  51-52
    4.5.2 缺失数据处理策略  52-53
    4.5.3 温度盐度均值计算  53-56
  4.6 给定条件下的数据选择  56
  4.7 温度盐度数据的静态离散化  56-59
    4.7.1 缺省数据的特殊约定  56-57
    4.7.2 温度盐度变化量计算  57-58
    4.7.3 温度盐度异常变化事件  58-59
  4.8 本章小结  59-60
第5章 维度属性变换与相关算法实现  60-72
  5.1 海洋事务维度变换  60-62
    5.1.1 事件和维度属性集合  60
    5.1.2 位置属性和事件绑定  60
    5.1.3 维度转换后事务表示  60-62
  5.2 并行FP-Growth算法  62-67
    5.2.1 并行计数  62-63
    5.2.2 项分组  63-64
    5.2.3 事务排序  64-65
    5.2.4 并行FP-Growth  65-66
    5.2.5 结果聚集  66-67
  5.3 实验环境  67
  5.4 实验结果与分析  67-70
    5.4.1 影响因素的理论分析  68
    5.4.2 影响因素的实验验证  68-70
  5.5 本章小结  70-72
第6章 总结与展望  72-74
  6.1 本文贡献  72
  6.2 未来工作  72-74
参考文献  74-78
致谢  78-80
攻读硕士学位期间的论文和项目情况  80

相似论文

  1. 基于数据挖掘技术的保健品营销研究,F426.72
  2. 张炳厚学术思想与临床经验总结及应用地龟汤类方治疗慢性肾脏病的经验研究,R249.2
  3. Bicluster数据分析软件设计与实现,TP311.52
  4. 基于遗传算法和粗糙集的聚类算法研究,TP18
  5. 基于数据挖掘的税务稽查选案研究,F812.42
  6. 基于数据挖掘的个性化在线教学辅助系统的研究与设计,TP311.13
  7. 基于数据挖掘的课程考核与分析决策系统的设计和实现,TP311.13
  8. 基于Moodle的高职网络教学系统设计与实现,TP311.52
  9. Web使用挖掘与网页个性化服务推荐研究,TP311.13
  10. 自适应学习环境中学习行为与学习水平关联模型的研究,G434
  11. 高校毕业生就业状况监测系统研究,G647.38
  12. 基于Map/Reduce框架的分布式日志分析系统的研究及应用,TP311.52
  13. 隐私保护线性规划和支持向量机新算法,O221.1
  14. 基于智能计算的网络学习评价模型研究与系统设计,TP18
  15. 面向电子商务的Web数据挖掘应用研究,TP311.13
  16. 基于数据仓库的医院决策支持系统,TP311.13
  17. 基于改良蚁群算法的神经网络分类规则提取,TP183
  18. 数据挖掘技术在预防电信客户流失中的应用研究,TP311.13
  19. 基于关联规则的结构化浏览技术及其应用,TP391.41
  20. 基于Hadoop的在线购物原型系统的设计与实现,TP311.52
  21. 数据挖掘技术在高职教师绩效考核中的应用研究,TP311.13

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机软件 > 程序设计、软件工程 > 程序设计 > 数据库理论与系统
© 2012 www.xueweilunwen.com