学位论文 > 优秀研究生学位论文题录展示

数据中心Hadoop部署与追踪系统研究

作 者: 黄大川
导 师: 石宣化
学 校: 华中科技大学
专 业: 计算机软件与理论
关键词: 大规模数据处理 MapReduce工作机理 环境部署 实时追踪
分类号: TP308
类 型: 硕士论文
年 份: 2011年
下 载: 122次
引 用: 0次
阅 读: 论文下载
 

内容摘要


MapReduce框架和其开源实现Hadoop自从问世以来,受到了学术界和工业界的广泛关注和使用。但是开发一个高效的MapReduce应用通常需要大量的MapReduce集群使用经验甚至需要理解MapReduce模型的底层工作机理。另外,快速建立一个可用的MapReduce集群环境也是用户比较关心的一个话题。因此,快速部署MapReduce集群环境、并实时展示MapReduce的工作流程是更好理解、应用甚至完善MapReduce模型过程中必须要研究的重要课题。Hadoop部署与追踪系统HDTS(Hadoop Deploy and Tracing System),旨在提供先部署MapReduce集群环境然后对MapReduce作业进行追踪的一体化解决方案。其中部署子系统提供了一种不需要用户接触机器便能快速部署、配置Hadoop集群环境的一种解决方案;而追踪子系统提供了一种在Hadoop集群环境部署成功后,实时展示MapReduce工作流程的解决方案。部署子系统向用户提供友好的用户界面,使用户在几个步骤之内轻松完成大规模Hadoop集群的配置、分发、启动等工作;追踪子系统基于对Hadoop源码工程的深刻理解,通过在源码中插入追踪代码,使得用户可以在追踪客户端直观感受、并且参与到MapReduce作业的运行。追踪子系统通过一种观察点的机制来保证追踪子系统实时地、精确地向用户提供追踪信息。追踪子系统使用自己修改过的追踪内核,用户在装配了这个新的内核之后,其所有接下来的操作与平时操作无异,多个用户能在任何装有追踪子系统客户端的节点上同时开启追踪客户端。因此,HDTS系统让用户在不接触物理机器的前提下,完成了对Hadoop集群的部署和追踪,为用户提供了完善的功能和良好的使用体验。Hadoop部署子系统前端采用Ext Ajax Framework,后端使用Python CGI管理Linux机器;Hadoop追踪子系统基于Hadoop源码工程,采用Java语言作为追踪代码实现和客户端实现。功能测试表明,部署子系统正确完成了Hadoop的配置、分发、启动工作;追踪子系统正确完成了各个观察点的展示。性能测试表明,追踪子系统对系统造成时间开销不超过4%。

全文目录


摘要  4-5
ABSTRACT  5-8
1 绪论  8-15
  1.1 研究背景和问题提出  8-10
  1.2 国内外研究现状  10-13
  1.3 课题来源与研究内容  13-14
  1.4 文章框架结构  14-15
2 数据中心HADOOP 部署与追踪系统 HDTS 设计  15-36
  2.1 HDTS 系统概述  15-16
  2.2 MAPREDUCE 和HDFS 的体系结构  16-19
  2.3 HADOOP 工作流程分析  19-26
  2.4 HDTS 系统的体系结构  26-28
  2.5 HDTS 系统的功能模块  28-32
  2.6 HDTS 系统的工作机制与处理流程  32-33
  2.7 HDTS 系统追踪信息拥塞控制算法  33-35
  2.8 小结  35-36
3 HDTS 系统的主要实现技术  36-43
  3.1 基于JSON 和SSH 互信的通信  36-37
  3.2 基于状态保持的服务器空间管理  37-38
  3.3 基于HDFS 视角的追踪  38-40
  3.4 基于MAPREDUCE 任务调度视角的追踪  40-42
  3.5 小结  42-43
4 系统测试与性能分析  43-53
  4.1 测试环境  43-44
  4.2 功能测试  44-50
  4.3 性能测试和分析  50-51
  4.4 小结  51-53
5 总结及展望  53-55
致谢  55-57
参考文献  57-61
附录1 攻读学位期间发表的论文  61
附录2 攻读学位期间申请的国家发明专利目录  61
附录3 攻读硕士学位期间参加的主要科研项目  61

相似论文

  1. 一个可扩展的MapReduce原型设计与实现,TP311.52
  2. 基于GIS的公安视频监控预案系统设计与实现,P208
  3. 基于hive的性能优化方法的研究与实践,TP311.13
  4. 海量数据组织中的索引机制研究与实现,TP391.3
  5. 计算机辅助外科手术中的光学立体定位仪的研制,TH789
  6. 中国铁路货运组织信息化问题研究,U294.1
  7. 天津大学智能数据中心研究与实现,TP308
  8. IBM X测试机房管理改进,TP308
  9. 政务数据中心体系结构及其访问控制机制的研究与设计,TP308
  10. 基于虚拟技术的数据中心建设研究,TP308
  11. 基于SQA软件架构的大型企业数据中心设计与实现,TP308
  12. 福州电信IDC整体规划建设思路及分析,TP308
  13. 市级农村信用社数据交换中心网络集中建设方案,TP308
  14. 基于ISA Server的机房访问控制系统的设计与实现,TP308
  15. 基于云计算的电信运营商IDC的构建,TP308
  16. 井下作业数据中心关键技术研究,TP308
  17. 数据中心网络地址自动配置关键技术研究,TP308
  18. 组策略在机房管理系统中的应用,TP308
  19. 商业银行绿色数据中心的规划设计,TP308
  20. 基于VLAN的机房维护模式的研究与实现,TP308

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 一般性问题 > 机房
© 2012 www.xueweilunwen.com