学位论文 > 优秀研究生学位论文题录展示

网络备份中重复数据删除技术研究

作 者: 杨天明
导 师: 冯丹
学 校: 华中科技大学
专 业: 计算机系统结构
关键词: 数据备份 重复数据删除 磁盘索引 指纹查询 索引更新 后处理
分类号: TP309.3
类 型: 博士论文
年 份: 2010年
下 载: 265次
引 用: 0次
阅 读: 论文下载
 

内容摘要


科技的飞速发展和生产力的突飞猛进正在加速产生大量高价值数据,对这些数据的存储和备份需求可以达到PB级(千万亿字节)。尽管数据呈爆炸性增长,但研究表明,重复数据大量存在于信息处理和存储的各个环节,如文件系统、邮件附件、web对象,以及操作系统和应用软件中。传统的数据保护技术如周期性备份、版本文件系统、快照和连续数据保护等更是加速着重复数据的增长,导致网络带宽和存储空间资源的紧缺以及数据管理成本的快速上升。为了抑制数据过快增长,提高资源利用率,降低成本,重复数据删除技术已经成为一个备受关注的研究课题。数据的持续增长和应用的高连续性对备份性能的要求越来越高,在大规模网络备份系统中实现重复数据删除,提高存储空间效率的同时,必须保证系统具有良好的性能和可扩展性。因此,围绕重复数据删除性能和可扩展性,在大规模重复数据删除系统架构、元数据管理、索引维护、高性能数据备份和恢复等方面进行研究,取得了相应的研究进展。针对已有的重复数据删除技术采用单服务器架构、可扩展性较差,难以满足大规模分布式数据备份需要的问题,提出了一种基于集中式管理、网络数据备份的层次化重复数据删除系统架构。该架构由一台主服务器对整个系统进行管理,支持多台备份服务器并行作业。数据流由备份客户端经过备份服务器流入后端存储节点中,实现了控制流和数据流的有效分离。多层数据索引技术把逻辑数据和底层物理数据有效分离开来,支持高性能层次化重复数据删除以及备份服务器层和存储节点层的动态扩展,使得系统具有良好的性能、可管理性和可扩展性。现有的重复数据删除技术在数据写入后台存储系统的过程中在全局范围内查询指纹以消除重复数据。随着备份数据量的增长,用来加速指纹查询的内存数据结构所消耗的存储空间会越来越大,使得系统规模最终受服务器内存空间限制。为此,设计了一种基于小范围检测的指纹过滤器用于在备份过程中对数据进行初步过滤,消除周期性备份产生的重复数据,节省网络带宽,提高备份效率。该技术把指纹查询的范围限定在作业链内,备份的内存开销和系统规模无关,另外,其在备份过程中收集指纹,便于系统使用高性能后处理重复数据删除算法对数据进行集中处理,消除了磁盘索引查询和更新对应用系统的影响。实验表明,该技术能消除备份流中大部分重复数据,既节省网络带宽又减少了需要在后台进一步处理的数据量,提高了系统整体性能。提出了一种后处理重复数据删除算法对备份数据进行集中处理,该算法顺序扫描磁盘索引一次性批处理大量指纹,从而有效消除了指纹查询和索引更新的随机磁盘I/O瓶颈。该算法使用固定大小的存储容器保护新数据块逻辑顺序,支持高性能数据恢复,另外,使用一种无状态路由算法把存储容器分发到后台存储节点中,支持后台存储节点的负载平衡、数据迁移和动态扩展。实验表明,相较于目前主流的重复数据删除技术,该算法在相同内存开销下支持更大的系统物理容量,更重要的是,它支持多服务器并行操作,具有良好的可扩展性。后处理重复数据删除算法顺序扫描数据块索引(磁盘索引)进行批处理指纹查询和索引更新,因而在一定系统规模下维持较小的数据块索引对于提高系统性能来说至关重要。目前在数据块索引空间利用率方面尚没有发现相关的研究工作。因此,设计了一种基于前缀映射的磁盘哈希表作为数据块索引,保证了良好的索引可扩展性,同时着重研究了数据块索引溢出概率和空间利用率问题。研究表明,使用恰当大小的索引桶,既能避免过高的桶内指纹查询开销,又能降低索引溢出概率,提高数据块索引空间利用率,从而有效降低索引存储开销,提高索引扫描性能。

全文目录


摘要  4-6
Abstract  6-11
1 引言  11-30
  1.1 网络备份面临的挑战  11-12
  1.2 重复数据删除技术研究的必要性  12-17
  1.3 重复数据删除技术的研究现状  17-27
  1.4 本文研究的主要内容  27-29
  1.5 论文的组织  29-30
2 基于网络备份的重复数据删除系统架构  30-54
  2.1 系统设计的背景  30-33
  2.2 重复数据删除系统架构  33-42
  2.3 基于内容的文件分块  42-46
  2.4 元数据管理  46-49
  2.5 逻辑数据删除  49-52
  2.6 本章小结  52-54
3 数据块索引结构及空间利用率分析  54-70
  3.1 设计背景  54-56
  3.2 数据块索引的结构和特性  56-59
  3.3 数据块索引的空间利用率  59-63
  3.4 实验验证和评价  63-69
  3.5 本章小结  69-70
4 一种基于小范围检测的指纹过滤器  70-93
  4.1 低带宽数据备份和文件同步技术  70-74
  4.2 FFSD算法的设计思想  74-76
  4.3 指纹过滤器实现  76-80
  4.4 FFSD算法描述  80-82
  4.5 实验及结果分析  82-91
  4.6 本章小结  91-93
5 高性能可扩展的后处理重复数据删除技术  93-115
  5.1 批处理指纹查询  94-96
  5.2 数据存储  96-98
  5.3 批处理索引更新  98-101
  5.4 实验及结果分析  101-114
  5.5 本章小结  114-115
6 全文总结  115-118
致谢  118-120
参考文献  120-129
附录1 攻读学位期间发表的学术论文目录  129-131
附录2 攻读学位期间参与项目及申请专利等情况  131

相似论文

  1. 双季戊四醇及其衍生物的合成与工艺研究,TQ223.164
  2. 超声处理RTM成型酚醛/乙醇在石英纤维表面的竞争吸附,TB332
  3. 高频雷达复合调制波形设计与处理,TN958.93
  4. 基于FPGA的数字图像处理基本算法研究与实现,TP391.41
  5. 海量多数据库集成系统的查询处理研究,TP311.13
  6. 嵌入式可信计算机系统安全机制的设计与实现,TP309
  7. 舌图像中瘀斑瘀点检测技术研究,TP391.41
  8. 图像实时采集、存储与处理方法研究,TP391.41
  9. 多线阵CCD视觉测量系统的数据采集与处理,TP274.2
  10. 机械臂视觉伺服系统的研究,TP242.6
  11. GPS抗干扰技术研究,P228.4
  12. Cu2+/Co2+催化漂白桉木浆工艺与机理研究,TS745
  13. 电子产品质量监控测试设备设计,TN06
  14. 钛白粉表面包膜的表征及机理,TQ621.12
  15. AFC系统通信中间件的研究与设计,TP311.5
  16. 基于视觉的番木瓜外观品质检测技术研究,S667.9
  17. 离子液体预处理纤维素及再生纤维素水解研究,TQ352.1
  18. 羊绒与羊毛纤维鉴别系统的研究,TS101.921
  19. 玉米秸秆和牛粪混合厌氧发酵工艺优化研究,S216.4
  20. 基于图像处理的大蒜播种机排序机构设计,S223.2
  21. 红外图像目标识别及跟踪技术研究,TP391.41

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 一般性问题 > 安全保密 > 数据备份与恢复
© 2012 www.xueweilunwen.com