学位论文 > 优秀研究生学位论文题录展示

基于HDFS的云数据备份系统的设计与实现

作 者: 杜勇
导 师: 徐高潮;郭东
学 校: 吉林大学
专 业: 软件工程
关键词: 云计算 云存储 数据备份系统 HDFS
分类号: TP309.3
类 型: 硕士论文
年 份: 2011年
下 载: 664次
引 用: 2次
阅 读: 论文下载
 

内容摘要


作为一种数据安全策略,备份是避免数据丢失的最基本也是最后的手段。云存储技术的出现为数据备份提供了新思路。云存储以下方面的特点适合于数据备份:云存储提供完整的数据存储服务,用户可以得到一个智能的备份软件以及一个管理完善的存储容量;云存储仅仅是对数据进行备份,用户不必担心失去对原始数据的控制;云存储服务具有价格上的优势,备份同样规模的数据,云存储所需的费用远比购置存储设备建立数据中心成本上要低廉的多。本文设计实现了基于云存储软件HDFS数据备份系统-HBDBS(HDFS Based Data Backup System),该系统充分利用云存储技术的优势,应用企业已有的廉价计算机设备建立数据备份集群,满足用户数据备份/恢复业务的需要。该系统分为客户端、备份服务器和HDFS集群三个部分。客户端是用户需要进行数据备份/恢复服务的计算机节点,按照地域、网络带宽等分成若干个群,当需要进行数据备份或者恢复时,他们向负责本群的备份服务器提出请求,得到许可后进行文件的备份和恢复操作。备份服务器是客户端和HDFS集群间的数据备份和恢复的桥梁,由多个高性能、大存储量的服务器构成,每个服务器负责一个客户端群。他们接受客户端的备份恢复请求,对用户进行身份验证并缓存客户端的数据。针对HDFS适合于大文件存储的特点,备份服务器通过设置上传阈值的策略对小文件进行合并上传备份以提高系统性能。备份服务器同时保存客户端备份文件的映像表,当客户端提出恢复请求时,从HDFS集群中读取备份文件,按照文件映像表发送给客户端。HDFS集群由安装了HDFS软件的计算机构成,向备份服务器提供备份、恢复服务,实现系统的核心功能。HDFS集群由一个Namenode和一定数目的Datanodes组成。Namenode执行文件系统的名字空间操作,也负责确定数据块到具体Datanode节点的映射;DataNode用于存储数据,由企业内部大量廉价计算机配置而成,并且可以根据备份数据的规模进行动态扩展。本文设计的基于HDFS的云数据备份系统在安全性、可扩展性、经济性及可靠性上均具有一定的优势:安全性:备份服务器通过用户身份认证等措施保证客户端与备份服务器间的安全;通过Hadoop的安全机制实现了备份服务器和HDFS集群的通信与数据传输安全。可扩展性:借助Hadoop软件强大的存储可扩展和计算可扩展能力,可以根据需要随时扩展HDFS集群的规模,增加系统的备份能力。经济性:HDFS是专门针对廉价硬件设计的分布式文件系统,具有良好的兼容性,任何计算机都可以通过安装该软件加入备份集群。因此可以充分利用企业已有大量闲置廉价计算机资源,节省设备采购的开销。可靠性:备份文件在HDFS集群中以多副本的形式进行保存,同时还可以根据文件的重要程度,增加副本的份数,提高可靠性。云存储技术是新兴的技术,我们下一步的目标是研究如何能够让该技术在数据备份领域发挥更大的作用。

全文目录


摘要  4-6
ABSTRACT  6-10
第1章 绪论  10-14
  1.1 云存储与数据备份  10-11
  1.2 数据备份系统  11-12
  1.3 本文工作  12-14
第2章 云存储与HDFS  14-20
  2.1 云存储  14-16
    2.1.1 云存储驱动力  14-15
    2.1.2 云存储种类  15-16
  2.2 Hadoop 与HDFS  16-20
    2.2.1 开源云计算软件Hadoop  16-17
    2.2.2 云存储组件HDFS  17-20
第3章 基于HDFS 的云数据备份系统的设计与实现  20-29
  3.1 体系结构  20-21
  3.2 客户端模块的设计  21-23
  3.3 备份服务器  23-27
    3.3.1 文件备份  24-26
    3.3.2 文件恢复  26
    3.3.3 备份服务器的上传/下载策略  26-27
  3.4 HDFS 备份集群  27
  3.5 与已有备份系统的比较  27-28
  3.6 系统性能  28-29
第4章 HDFS 备份集群的实现  29-41
  4.1 系统环境与运行模式  29-34
    4.1.1 Hadoop 分布式环境构建  30-34
    4.1.2 HDFS 客户端开发环境配置  34
  4.2 HDFS 客户端的实现  34-38
    4.2.1 模块划分  34
    4.2.2 数据流程  34-38
  4.3 具体模块的实现  38-41
    4.3.1 上传模块  38-39
    4.3.2 下载  39-40
    4.3.3 删除  40-41
第5章 结论  41-43
参考文献  43-45
致谢  45

相似论文

  1. 云计算平台下的动态信任模型的研究,TP309
  2. 基于云计算的数字图书馆服务模式研究,G250.76
  3. 基于Hadoop的在线购物原型系统的设计与实现,TP311.52
  4. 基于信誉度的云环境下资源管理的研究,TP315
  5. 基于Google平台促销模块与商品模块的设计与实现,TP311.52
  6. 基于云计算的ITIL运维,TP311.52
  7. 基于云计算的软件资源服务平台研究,TP311.52
  8. 基于人工免疫的病毒检测技术研究,TP393.08
  9. 基于Google云计算平台的Web应用系统设计及实现,TP393.09
  10. 云计算数据隐私保护方法的研究,TP393.08
  11. 基于启发式算法的恶意代码检测系统研究与实现,TP393.08
  12. 基于Hadoop的云存储系统客户端的设计与实现,TP333
  13. 云计算平台上的增量学习研究,TP311.13
  14. 基于云计算平台的电信业务支撑系统中资源提供策略的研究,TP3
  15. 基于Hadoop的视频转码系统设计与实现,TN919.81
  16. 云存储中开放网络资源稳定存储机制的研究与实现,TP333
  17. 云存储中大规模加密小文档存储管理研究与实现,TP333
  18. 基于Linux平台的局域网云监控系统的分析与实现,TP311.52
  19. 面向逻辑虚拟域的多级访问控制系统,TP309
  20. 基于虚拟机内存模板的云计算服务系统,TP393.09
  21. 云环境下MapReduce容错技术的研究,TP302.8

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 一般性问题 > 安全保密 > 数据备份与恢复
© 2012 www.xueweilunwen.com