学位论文 > 优秀研究生学位论文题录展示

基于HDFS的云存储系统研究

作 者: 徐文强
导 师: 陈克非
学 校: 上海交通大学
专 业: 计算机系统结构
关键词: 云存储 数据完全备份 纠删码 Hadoop分布式文件系统 REPERA架构
分类号: TP333
类 型: 硕士论文
年 份: 2011年
下 载: 1454次
引 用: 2次
阅 读: 论文下载
 

内容摘要


云计算基于网络,是网格计算、并行计算和分布式计算的进一步发展。它采用了网络存储、虚拟化和负载均衡等技术,将用户任务合理转移到位于网络的大型计算中心来完成,实现了计算机软硬件资源的充分整合和共享。云存储是在云计算的概念上延伸和发展出来的。它通过将网络中各种不同类型的存储设备集合起来协同工作,对外提供数据存储和访问服务。在众多的开源云计算平台中,由自由软件基金会Apache基于Google云计算的设计理念实现的Hadoop Project引起了广泛关注。其中的Hadoop分布式文件系统(HDFS,Hadoop Distributed File System)研究云存储相关技术,实现了海量数据的存储管理。HDFS具有扩展性强、可靠性高、成本低等优势,有利于大型和小型的学术团体进行实验环境的搭建。完善的文件管理方法和类似于流式的数据读取机制,使HDFS成为云存储研究的热点之一。云存储必须关注的是如何高效地保证存储数据的有效性、完整性、可用性以及存储的持久性。目前,文件存储所采用的技术主要有两种:数据的完全备份和纠删码方法,这两种方法各有优劣。数据的完全备份可以降低用户的访问延迟,但却需要构建地理位置不同的数据中心,同时消耗更多的存储空间和传输带宽;纠删码方法可以增强数据的持久化存储能力,占用空间相对较少,但会因解码操作消耗更多的系统资源,延长用户的访问延迟。如何集二者之长优势互补?在占用存储空间较少的同时不增加用户的访问延迟,并能保证数据的有效性、完整性和可用性,增强数据的持久化存储能力,就成为本文的研究课题。本文采用了数据的完全备份和纠删码相结合的方法,基于HDFS设计并实现了分布式架构REPERA。作为云存储架构的一种形式,REPERA除了具有HDFS的扩展性高、可靠性强、支持大规模数据集管理和类似于流式的快速数据存取特点外,还具有两种数据存储方法的优点,平衡了数据的访问延迟和持久化存储之间的矛盾,,节省了较多的存储空间。此外,REPERA系统的实现给用户预留了配置参数,用户可以根据自身需要对存储策略进行配置,在不同的应用场景下分别选择更偏向于完全备份还是纠删码,达到最优化。本文将在详细分析HDFS内部机制的基础上提出REPERA架构的设计理念,然后设计并实现该架构,并通过具体实验测试验证REPERA架构的可行性。

全文目录


摘要  3-5
Abstract  5-9
第1章 绪论  9-17
  1.1 研究背景  9-15
    1.1.1 云计算的提出和发展  9-11
    1.1.2 云存储的研究现状  11-14
    1.1.3 开源云存储平台简介  14-15
  1.2 研究意义  15
  1.3 研究内容和论文结构  15-16
    1.3.1 课题的研究内容  15-16
    1.3.2 本文的文章结构  16
  1.4 本章小结  16-17
第2章 Hadoop 文件系统架构与特点  17-25
  2.1 HDFS 概述  17-18
  2.2 HDFS 架构分析  18-20
    2.2.1 系统架构  18-19
    2.2.2 NameNode 功能分析  19-20
    2.2.3 DataNode 功能分析  20
    2.2.4 Secondary NameNode 功能分析  20
  2.3 HDFS 的外部和内部交互机制  20-23
    2.3.1 HDFS 的外部交互机制  21-22
    2.3.2 HDFS 的内部交互机制  22-23
  2.4 HDFS 的容错和故障处理  23-24
  2.5 本章小结  24-25
第3章 新的分布式架构REPERA 设计  25-31
  3.1 REPERA 的设计思想  25-27
    3.1.1 数据的完全备份  25-26
    3.1.2 纠删码编码  26
    3.1.3 REPERA 设计思想  26-27
  3.2 REPERA 的数据存储和恢复策略  27-29
    3.2.1 数据存储策略  27-28
    3.2.2 数据恢复策略  28-29
  3.3 REPERA 优势分析  29-30
  3.4 本章小结  30-31
第4章 REPERA 的算法与主要模块  31-48
  4.1 纠删码算法  31-35
    4.1.1 RS 编码算法原理  31-34
    4.1.2 RS 编码算法实现步骤  34-35
  4.2 数据恢复算法  35-36
  4.3 REPERA 的模块实现  36-47
    4.3.1 REPERA 编码模块的实现  36-38
    4.3.2 NameNode 数据管理模块的实现  38-44
    4.3.3 DataNode 上编解码模块的实现  44-47
  4.4 本章小结  47-48
第5章 REPERA 实验测试分析  48-60
  5.1 REPERA 系统搭建  48-53
    5.1.1 搭建REPERA 集群  48-50
    5.1.2 配置测试工具Ganglia  50-53
  5.2 REPERA 实验结果分析  53-59
    5.2.1 REPERA 测试方案  53-54
    5.2.2 REPERA 功能测试  54-57
    5.2.3 REPERA 性能测试  57-59
  5.3 本章小结  59-60
第6章 总结和展望  60-63
  6.1 本文总结  60-61
  6.2 云计算展望  61-63
参考文献  63-65
附录  65-86
  附录1 HDFS 集群测试用例  65-66
  附录2 REPERA 功能测试NameNode 上的Log 信息  66-80
    (1,5,4)模式  66-71
    (2,6,5)模式  71-75
    (3,4,3)模式  75-80
  附录3 REPERA 性能测试的测试程序  80-86
致谢  86-87
攻读学位期间发表的学术论文  87-89

相似论文

  1. 基于云计算的ITIL运维,TP311.52
  2. 基于Google云计算平台的Web应用系统设计及实现,TP393.09
  3. 基于Hadoop的云存储系统客户端的设计与实现,TP333
  4. 云存储中开放网络资源稳定存储机制的研究与实现,TP333
  5. 云存储系统数据持久存储机制的研究,TP333
  6. 云存储中大规模加密小文档存储管理研究与实现,TP333
  7. 基于云存储的手机数据备份系统,TP309.3
  8. 一种无主控制的云存储架构的研究,TP333
  9. 基于云存储的电子病历系统及访问控制策略研究,TP393.08
  10. 云存储中的数据删除技术研究,TP333
  11. 面向海量数据的云存储系统实现与应用研究,TP333
  12. RAID系统纠删码技术研究,TP391.44
  13. 在线云存储系统的设计与应用,TP333
  14. 基于云计算的寻畅网数据管理平台开发,TP311.52
  15. 湖南移动网管集中云存储平台搭建与测试,TP333
  16. 面向数据密集型超级计算的基于纠删码的容错存储技术研究,TP302.8
  17. 重大事件网络信息资源长期保存方法研究,G250.73
  18. 基于云计算的网络视频监控系统研究与实现,TP277
  19. P2P网络中冗余数据持久可用性的模型与评价,TP393.02
  20. 基于Agent技术的网络商务信息存储及检索研究,TP391.3
  21. 分布式存储系统的可靠性研究,TP333

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 电子数字计算机(不连续作用电子计算机) > 存贮器
© 2012 www.xueweilunwen.com