学位论文 > 优秀研究生学位论文题录展示

XML数据的动态编码和分布式管理技术

作 者: 范远超
导 师: 王晓玲
学 校: 华东师范大学
专 业: 计算机软件与理论
关键词: XML 动态编码 位字符串编码 向量编码 根号编码 分布式系统 HDFS MapReduce 格雷码 Memcached
分类号: TP311.1
类 型: 硕士论文
年 份: 2012年
下 载: 63次
引 用: 0次
阅 读: 论文下载
 

内容摘要


在网络技术的日益发展下,非结构化数据的数量日趋增大,非结构化数据管理技术的研究具有重要的理论意义和应用价值。作为非结构化数据中的关键技术,XML数据的广泛应用使得XML数据的有效管理成为数据库领域新的挑战和热点研究问题。同时,面对海量数据计算的要求,一种新兴的计算模式——云计算得到快速发展,在云环境中如何满足数据密集型计算的需求是当前计算机领域的一个重点研究方向。随着XML应用的不断深入以及大规模分布式计算技术的不断演进,分布式XML数据管理技术逐渐成为XML数据研究领域新的发展方向。在XML数据管理技术领域中,本文针对支持动态更新的XML数据编码技术、以及云计算环境中XML数据的分布式存储管理技术,做了详细探讨和主要创新。在XML数据编码技术领域,绝大多数对于XML的索引和查询技术都是基于某种XML编码方法,因为编码可以快速判断XML文档中任意两个结点之间是否存在祖先-后代关系或者父子关系。现有的XML基本编码技术有起止编码和前缀编码,但这些编码方法在XML文档更新时会遇到重新编码的问题。本文分析了现有的支持动态更新的XML编码技术(位字符串编码和向量编码)的原理和本质,提出了基于数字的XML动态编码方法的一个通用的框架。根据用户自定义的数值大小比较方法的不同,该通用动态编码框架可以实现为多种具体的XML动态编码技术。同时,基于该通用框架,本文又提出了一种新的XML动态编码技术——根号编码。实验证明,根号编码能够很好地用于XML编码的生成、插入更新和查询判断的操作,尤其在倾斜插入操作中,根号编码所需的空间资源远远小于现有的两种编码技术。在XML数据的存储管理领域,传统的单机和小规模分布式平台已经不能满足海量数据管理的需要,Hadoop分布式文件系统(HDFS)具有可扩展性、高可用性、容错性的优势,为海量数据存储提供了有效的管理平台。本文基于HDFS平台和MapReduce编程框架,设计并实现了分布式环境中海量XML数据的存储和查询管理系统,该系统能够实现对海量XML数据的分布式存储,以及对指定XML数据的快速读取的功能,并在以音频特征数据为代表的海量XML数据集的应用中验证其可靠性和高效性。在系统的关键技术中,首先将音频特征数据表示为XML树的逻辑结构,然后结合格雷码建立XML数据的索引,并设计数据的存储结构在HDFS平台上进行分布式存储,最后引入分布式缓存Memcached优化数据读取的时间响应性能。基于HDFS和MapReduce实现的海量XML数据存储和读取系统,并不局限于对音频特征数据应用的管理,其它的数据都可以类似地表示为XML树逻辑模型,在此系统上进行可扩展的分布式存储管理。

全文目录


目录  6-8
摘要  8-10
ABSTRACT  10-12
第一章 绪论  12-16
  1.1 研究背景及研究意义  12-13
  1.2 研究问题及主要贡献  13-15
    1.2.1 XML数据的动态编码技术  14-15
    1.2.2 海量XML数据的分布式存储管理技术  15
  1.3 文章组织  15-16
第二章 相关技术和研究现状  16-31
  2.1 XML简介  16
  2.2 XML编码  16-22
    2.2.1 XML数据的编码生成  17
    2.2.2 带编码的XML树更新模型  17-18
    2.2.3 使用编码判断XML结点关系  18
    2.2.4 XML数据编码技术的分类  18-22
  2.3 分布式系统和云计算简介  22-23
  2.4 典型云平台和相关数据存储系统  23-28
    2.4.1 Google云平台和三大技术  24-25
    2.4.2 Amazon云平台dynamo  25
    2.4.3 Apache云平台Hadoop  25-28
      2.4.3.1 Hadoop分布式文件系统(HDFS)  26-27
      2.4.3.2 MapReduce编程模型  27-28
  2.5 格雷码  28-29
  2.6 分布式缓存Memcached  29-31
第三章 XML数据动态编码  31-44
  3.1 XML动态编码的原理和操作  31-34
    3.1.1 XML动态编码方法的基本思想  31-32
    3.1.2 通用的XML动态编码的操作算法  32-34
      3.1.2.1 通用编码的特征要求  32
      3.1.2.2 通用编码的操作算法  32-34
  3.2 基于根号的XML数据动态编码技术  34-40
    3.2.1 根号编码的数值表达和比较方法  34
    3.2.2 根号编码的生成方法  34-36
    3.2.3 根号编码的插入方法  36-38
    3.2.4 根号编码的应用  38-40
      3.2.4.1 将根号编码应用到杜威编码中  38-39
      3.2.4.2 将根号编码应用到起止编码中  39-40
  3.3 比较实验  40-44
    3.3.1 编码生成的时间空间性能  40-41
    3.3.2 倾斜插入的时间空间性能  41-42
    3.3.3 查询判断的时间性能  42-44
第四章 海量XML数据的分布式存储管理  44-55
  4.1 系统架构和处理流程  44-45
  4.2 模块设计及关键技术  45-51
    4.2.1 音频特征数据的XML表示  45-46
    4.2.2 结合格雷码建立数据索引  46-48
    4.2.3 设计HDFS上数据的存储结构  48-50
    4.2.4 引入Memcached优化数据读取时间  50-51
  4.3 实验结果与分析  51-55
    4.3.1 实验环境  51-52
    4.3.2 实验数据集  52
    4.3.3 比较实验  52-55
      4.3.3.1 数据存储的空间性能  52
      4.3.3.2 数据读取的时间性能  52-53
      4.3.3.3 Memcached预载数据量与读取时间的关系  53-54
      4.3.3.4 Memcached的预载耗时  54-55
第五章 总结  55-57
附录  57-58
参考文献  58-61
后记  61

相似论文

  1. 基因调控网络模型描述语言研究,Q78
  2. 分布式系统的故障注入方法研究,TP338.8
  3. 支持XML数据查询的F&B索引结构的研究,TP311.13
  4. LXI自动测试系统集成技术研究,TP274
  5. 基于网络的服装款式设计系统的研究与实现,TS941.2
  6. 基于MDA的界面自动生成方法的研究,TP311.5
  7. C++代码缺陷检测系统的研究与设计,TP311.53
  8. 基于Web的科学计算遗留应用共享技术研究,TP393.09
  9. 利用钻孔资料实现矿体三维可视化,TP391.41
  10. 基于XML的异构数据交换系统的设计与实现,TP311.52
  11. 一种可视化的分布式数据集成模型的研究与实现,TP311.52
  12. 电子公文传输管理系统在电大系统中的设计与实现,TP311.52
  13. 基于Map/Reduce框架的分布式日志分析系统的研究及应用,TP311.52
  14. 基于关系数据库理论的面向对象数据库系统应用研究,TP311.52
  15. 支持Top-k查询的银行记账查询系统的设计与实现,TP311.52
  16. 基于B/S多层架构的特种文献系统设计与实现,TP311.52
  17. 基于中间件的科技查新辅助检索系统的设计与实现,TP391.3
  18. 企业异构管理信息系统间数据交换框架的研究,TP311.52
  19. 基于XML的用户界面建模研究与实现,TP311.52
  20. 基于SVG的数据分析图表系统的研究与实现,TP311.52
  21. 模糊XML Twig模式查询算法的研究,TP311.13

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机软件 > 程序设计、软件工程 > 程序设计
© 2012 www.xueweilunwen.com