学位论文 > 优秀研究生学位论文题录展示
基于HDFS的云存储系统研究
作 者: 徐文强
导 师: 陈克非
学 校: 上海交通大学
专 业: 计算机系统结构
关键词: 云存储 数据完全备份 纠删码 Hadoop分布式文件系统 REPERA架构
分类号: TP333
类 型: 硕士论文
年 份: 2011年
下 载: 1454次
引 用: 2次
阅 读: 论文下载
内容摘要
云计算基于网络,是网格计算、并行计算和分布式计算的进一步发展。它采用了网络存储、虚拟化和负载均衡等技术,将用户任务合理转移到位于网络的大型计算中心来完成,实现了计算机软硬件资源的充分整合和共享。云存储是在云计算的概念上延伸和发展出来的。它通过将网络中各种不同类型的存储设备集合起来协同工作,对外提供数据存储和访问服务。在众多的开源云计算平台中,由自由软件基金会Apache基于Google云计算的设计理念实现的Hadoop Project引起了广泛关注。其中的Hadoop分布式文件系统(HDFS,Hadoop Distributed File System)研究云存储相关技术,实现了海量数据的存储管理。HDFS具有扩展性强、可靠性高、成本低等优势,有利于大型和小型的学术团体进行实验环境的搭建。完善的文件管理方法和类似于流式的数据读取机制,使HDFS成为云存储研究的热点之一。云存储必须关注的是如何高效地保证存储数据的有效性、完整性、可用性以及存储的持久性。目前,文件存储所采用的技术主要有两种:数据的完全备份和纠删码方法,这两种方法各有优劣。数据的完全备份可以降低用户的访问延迟,但却需要构建地理位置不同的数据中心,同时消耗更多的存储空间和传输带宽;纠删码方法可以增强数据的持久化存储能力,占用空间相对较少,但会因解码操作消耗更多的系统资源,延长用户的访问延迟。如何集二者之长优势互补?在占用存储空间较少的同时不增加用户的访问延迟,并能保证数据的有效性、完整性和可用性,增强数据的持久化存储能力,就成为本文的研究课题。本文采用了数据的完全备份和纠删码相结合的方法,基于HDFS设计并实现了分布式架构REPERA。作为云存储架构的一种形式,REPERA除了具有HDFS的扩展性高、可靠性强、支持大规模数据集管理和类似于流式的快速数据存取特点外,还具有两种数据存储方法的优点,平衡了数据的访问延迟和持久化存储之间的矛盾,,节省了较多的存储空间。此外,REPERA系统的实现给用户预留了配置参数,用户可以根据自身需要对存储策略进行配置,在不同的应用场景下分别选择更偏向于完全备份还是纠删码,达到最优化。本文将在详细分析HDFS内部机制的基础上提出REPERA架构的设计理念,然后设计并实现该架构,并通过具体实验测试验证REPERA架构的可行性。
|
全文目录
摘要 3-5 Abstract 5-9 第1章 绪论 9-17 1.1 研究背景 9-15 1.1.1 云计算的提出和发展 9-11 1.1.2 云存储的研究现状 11-14 1.1.3 开源云存储平台简介 14-15 1.2 研究意义 15 1.3 研究内容和论文结构 15-16 1.3.1 课题的研究内容 15-16 1.3.2 本文的文章结构 16 1.4 本章小结 16-17 第2章 Hadoop 文件系统架构与特点 17-25 2.1 HDFS 概述 17-18 2.2 HDFS 架构分析 18-20 2.2.1 系统架构 18-19 2.2.2 NameNode 功能分析 19-20 2.2.3 DataNode 功能分析 20 2.2.4 Secondary NameNode 功能分析 20 2.3 HDFS 的外部和内部交互机制 20-23 2.3.1 HDFS 的外部交互机制 21-22 2.3.2 HDFS 的内部交互机制 22-23 2.4 HDFS 的容错和故障处理 23-24 2.5 本章小结 24-25 第3章 新的分布式架构REPERA 设计 25-31 3.1 REPERA 的设计思想 25-27 3.1.1 数据的完全备份 25-26 3.1.2 纠删码编码 26 3.1.3 REPERA 设计思想 26-27 3.2 REPERA 的数据存储和恢复策略 27-29 3.2.1 数据存储策略 27-28 3.2.2 数据恢复策略 28-29 3.3 REPERA 优势分析 29-30 3.4 本章小结 30-31 第4章 REPERA 的算法与主要模块 31-48 4.1 纠删码算法 31-35 4.1.1 RS 编码算法原理 31-34 4.1.2 RS 编码算法实现步骤 34-35 4.2 数据恢复算法 35-36 4.3 REPERA 的模块实现 36-47 4.3.1 REPERA 编码模块的实现 36-38 4.3.2 NameNode 数据管理模块的实现 38-44 4.3.3 DataNode 上编解码模块的实现 44-47 4.4 本章小结 47-48 第5章 REPERA 实验测试分析 48-60 5.1 REPERA 系统搭建 48-53 5.1.1 搭建REPERA 集群 48-50 5.1.2 配置测试工具Ganglia 50-53 5.2 REPERA 实验结果分析 53-59 5.2.1 REPERA 测试方案 53-54 5.2.2 REPERA 功能测试 54-57 5.2.3 REPERA 性能测试 57-59 5.3 本章小结 59-60 第6章 总结和展望 60-63 6.1 本文总结 60-61 6.2 云计算展望 61-63 参考文献 63-65 附录 65-86 附录1 HDFS 集群测试用例 65-66 附录2 REPERA 功能测试NameNode 上的Log 信息 66-80 (1,5,4)模式 66-71 (2,6,5)模式 71-75 (3,4,3)模式 75-80 附录3 REPERA 性能测试的测试程序 80-86 致谢 86-87 攻读学位期间发表的学术论文 87-89
|
相似论文
- 基于云计算的ITIL运维,TP311.52
- 基于Google云计算平台的Web应用系统设计及实现,TP393.09
- 基于Hadoop的云存储系统客户端的设计与实现,TP333
- 云存储中开放网络资源稳定存储机制的研究与实现,TP333
- 云存储系统数据持久存储机制的研究,TP333
- 云存储中大规模加密小文档存储管理研究与实现,TP333
- 基于云存储的手机数据备份系统,TP309.3
- 一种无主控制的云存储架构的研究,TP333
- 基于云存储的电子病历系统及访问控制策略研究,TP393.08
- 云存储中的数据删除技术研究,TP333
- 面向海量数据的云存储系统实现与应用研究,TP333
- RAID系统纠删码技术研究,TP391.44
- 在线云存储系统的设计与应用,TP333
- 基于云计算的寻畅网数据管理平台开发,TP311.52
- 湖南移动网管集中云存储平台搭建与测试,TP333
- 面向数据密集型超级计算的基于纠删码的容错存储技术研究,TP302.8
- 重大事件网络信息资源长期保存方法研究,G250.73
- 基于云计算的网络视频监控系统研究与实现,TP277
- P2P网络中冗余数据持久可用性的模型与评价,TP393.02
- 基于Agent技术的网络商务信息存储及检索研究,TP391.3
- 分布式存储系统的可靠性研究,TP333
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 电子数字计算机(不连续作用电子计算机) > 存贮器
© 2012 www.xueweilunwen.com
|