学位论文 > 优秀研究生学位论文题录展示

基于云平台的OLAP系统研究与实现

作 者: 刘瑜
导 师: 王国仁
学 校: 东北大学
专 业: 计算机技术
关键词: 云平台 联机分析处理 MapReduce 在线贯序极限学习机
分类号: TP311.13
类 型: 硕士论文
年 份: 2013年
下 载: 2次
引 用: 0次
阅 读: 论文下载
 

内容摘要


云计算技术的出现为海量数据的处理提供了良好的解决方案。为了进一步促进我国海洋信息化工作的发展,国家海洋局采用云计算技术来构建海洋环境信息综合服务应用框架体系,它可以提高海洋资源信息的可重用性与共享性,以及应用系统的可扩展性。本文依托于国家海洋公益性项目搭建了一个基于云平台的OLAP系统,该系统可以向用户提供多维视图,使用户从多个角度、多个侧面、多个层次考察和分析数据,深入理解数据中的信息及其内涵。现有的OLAP系统在处理大规模数据集时,存在数据处理效率慢及数据信息丢失等问题,效率和容量成为现有OLAP系统的最大瓶颈。基于云平台的OLAP系统不仅能够存储海量数据,还可以并行计算数据立方,提高计算效率,减小系统响应时间。基于云平台的OLAP系统分为三个层次。分别是存储层,OLAP引擎层和应用层。存储层采用数据仓库Hive进行数据存储,并根据OLAP引擎Mondrian所提供的JDBC通用接口方法,利用JAVA语言实现了一个Hive方言类——HiveDialect,将Mondrian生成的SQL语句转换成符合Hive操作格式的类SQL的HiveQL语句,实现了OLAP引擎对存储层数据存取操作。OLAP引擎层利用开源项目Mondrian实现物理模型与多维模型的映射,完成了多维数据集的创建以及MDX语句的解析。应用层采用自定义标签库JPivot实现,利用JSP标签库来提供执行OLAP操作的相关按钮和完成数据展示功能,并且提供JDBC接口与底层数据模型建立连接。根据项目需求,OLAP系统需要提供给用户一个基于云平台的分类挖掘算法库,帮助用户进一步完成对数据的挖掘和分析。现有的分布式机器学习算法库Mahout,提供了一些经典的分类挖掘算法,如贝叶斯、决策树等。而学习速度快,泛化性能好的在线贯序学习机(OS-ELM)算法并没有在云平台实现。本文对OS-ELM算法进行分析,利用MapReduce编程框架实现了OS-ELM算法的并行化处理,设计了一种基于Map-Reduce的OS-ELM算法,即MOS-ELM。实验表明,MOS-ELM算法是可行的。与集中式的OS-ELM算法相比,该算法模型简单,易于实现,并且具有良好的扩展性和并行性。

全文目录


摘要  5-6
Abstract  6-10
第1章 绪论  10-16
  1.1 研究背景  10-11
  1.2 研究目的与意义  11-12
  1.3 本文主要工作  12-13
  1.4 本文组织结构  13-16
第2章 相关研究工作  16-32
  2.1 Hadoop相关技术  16-21
    2.1.1 Hadoop  16
    2.1.2 Hive  16-19
    2.1.3 MapReduce编程模型  19-21
    2.1.4 Mahout  21
  2.2 OLAP相关技术  21-26
    2.2.1 OLAP体系结构  22-23
    2.2.2 OLAP的关键技术  23-25
    2.2.3 现有的OLAP系统  25-26
  2.3 分类算法  26-31
    2.3.1 分类算法基本步骤  27-28
    2.3.2 极限学习机  28-31
  2.4 本章小结  31-32
第3章 基于云平台的OLAP系统设计与实现  32-48
  3.1 基于云平台的OLAP系统的整体设计  32-35
    3.1.1 系统功能需求  32
    3.1.2 系统性能需求  32-33
    3.1.3 整体架构  33-35
  3.2 存储层的设计与实现  35-40
    3.2.1 Mondrian存储层分析  35-36
    3.2.2 Mondrian的扩展  36-37
    3.2.3 面向Hive的方言设计  37-40
  3.3 OLAP引擎层的设计与实现  40-44
    3.3.1 OLAP引擎层分析  40-41
    3.3.2 多维模型文件Schema  41-43
    3.3.3 多维数据库的创建  43-44
  3.4 应用层的设计与实现  44-47
    3.4.1 应用层与下层的交互  44-45
    3.4.2 结果可视化  45-47
  3.5 本章小结  47-48
第4章 基于MapReduce的OS-ELM并行算法  48-58
  4.1 在线贯序极限学习机算法  48-50
  4.2 问题提出与基本思想  50-52
  4.3 基于MapReduce的OS-ELM算法设计  52-53
  4.4 基于MapReduce的OS-ELM算法实现  53-57
    4.4.1 MOS-ELM算法初始化阶段  53-55
    4.4.2 MOS-ELM算法在线学习阶段  55-56
    4.4.3 MOS-ELM算法测试阶段  56-57
  4.5 算法分析  57
  4.6 本章小结  57-58
第5章 实验与性能分析  58-72
  5.1 实验环境  58-59
  5.2 基于云平台的OLAP系统运行示例  59-64
    5.2.1 系统部署  59-61
    5.2.2 OLAP功能测试  61-64
  5.3 基于MapReduce的OS-ELM算法的实验及性能分析  64-70
    5.3.1 实验数据集  64
    5.3.2 实验结果及分析  64-70
  5.4 本章小结  70-72
第6章 总结与展望  72-74
  6.1 内容总结  72-73
  6.2 未来展望  73-74
参考文献  74-78
致谢  78-80
攻读硕士学位期间主要成果  80

相似论文

  1. 基于Map/Reduce框架的分布式日志分析系统的研究及应用,TP311.52
  2. 高速网络环境下的入侵检测系统的研究,TP393.08
  3. 达梦OLAP聚集设计器的研究,TP311.13
  4. 基于Hadoop的文本分类研究,TP391.1
  5. 基于Hadoop的分布式服务注册中心研究和实现,TP393.09
  6. 基于多核CPU的任务级数据处理研究及其在集群平台下的性能测试,TP274
  7. 数据中心Hadoop部署与追踪系统研究,TP308
  8. 基于Linux平台的局域网云监控系统的分析与实现,TP311.52
  9. 云环境下MapReduce容错技术的研究,TP302.8
  10. 一个可扩展的MapReduce原型设计与实现,TP311.52
  11. 基于MapReduce的分布式文本数据过滤技术研究与系统实现,TP391.1
  12. 基于段落指纹的大规模近似网页检测算法研究,TP393.092
  13. MapReduce FairScheduler的高性能优化及超大规模集群模拟器设计及实现,TP311.13
  14. 基于列存储的RFID数据的管理技术的研究与应用,TP315
  15. 高性能计算体系结构下的海量数据处理分析与优化,TP338
  16. 分布式系统中的信息流控制模型的研究,TP316.4
  17. 数据密集型计算系统中的作业调度技术研究,TP311.13
  18. 基于IaaS云计算的Web应用技术研究,TP393.09
  19. 云计算中MapReduce性能优化及应用,TP3
  20. 基于MapReduce的聚类算法的并行化研究,TP311.13
  21. 基于模型驱动的遗留系统到云平台的移植方法,TP311.52

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机软件 > 程序设计、软件工程 > 程序设计 > 数据库理论与系统
© 2012 www.xueweilunwen.com