学位论文 > 优秀研究生学位论文题录展示

中文XML压缩技术研究

作 者: 张山山
导 师: 路松峰
学 校: 华中科技大学
专 业: 计算机应用技术
关键词: 中文可扩展标记语言文档 数据压缩 中文分词 字典
分类号: TP311.11
类 型: 硕士论文
年 份: 2011年
下 载: 22次
引 用: 0次
阅 读: 论文下载
 

内容摘要


随着可扩展标记语言(Extensible Markup Language,简称XML)的广泛应用,互联网以及本地计算机上存在着大量的中文XML文档需要存储和交换。XML是一种元语言,可以用来描述其它数据,并且XML具有简单、灵活、跨平台等特性。但是XML格式冗余巨大,空间利用率低。为了提高空间利用率,提高数据交换的速度,给出了一种高压缩率中文XML文档的专用压缩解决方案COX(Chinese-Oriented XML Compressor)并实现了该系统。针对XML文档的特性,分析了XML文档中存在的结构和内容上的冗余信息,针对这些冗余给出了COX压缩技术。COX压缩中文XML文档的过程主要分为以下几个步骤:建立字典,查找字典,编码和整合压缩。建立字典分为三个步骤:对XML文档进行中文分词,获得分词及对应的词频信息;根据分词长度和词频信息过滤掉分词长度较短或(和)词频较低的分词;对获得的分词字典根据词频进行排序,高频词汇位于字典首部,低频词汇位于字典尾部,至此得到了编码字典。建立字典之后,再次扫描XML文档,根据一定的条件对数据进行分类,建立相应的容器,查找字典,对于字典项进行前缀编码,对其它类型的数据采用相应的编码方式进行编码;使用通用压缩算法LZMA对编码后的容器进行整合压缩。COX使用了中文分词,建立字典,划分容器等技术,其中建立字典是COX的关键技术。将COX和其它一些流行压缩软件进行对比实验,实验结果表明在相同的实验环境下对所选取的所有数据集COX的压缩率都超过了其它软件。COX提高了空间利用率,为中文XML文档压缩提供了良好的解决方案。

全文目录


摘要  4-5
Abstract  5-9
1 绪论  9-18
  1.1 研究背景及研究意义  9-10
  1.2 国内外研究现状  10-14
  1.3 主要研究内容  14-16
  1.4 本文的组织结构  16-18
2 COX 压缩系统分析与设计  18-30
  2.1 相关定义  18-19
  2.2 XML 文档中的冗余  19-20
  2.3 压缩系统体系结构  20-21
  2.4 压缩系统模块设计  21-29
  2.5 本章小结  29-30
3 COX 系统实现  30-42
  3.1 建立字典  30-34
  3.2 划分容器  34-38
  3.3 压缩实例  38-41
  3.4 本章小结  41-42
4 实验  42-47
  4.1 实验数据源  42-43
  4.2 实验环境  43
  4.3 实验结果  43-45
  4.4 实验结果分析  45-46
  4.5 本章小结  46-47
5 总结与展望  47-49
  5.1 全文总结  47-48
  5.2 未来的工作  48-49
致谢  49-50
参考文献  50-54

相似论文

  1. 基于BAP的数据压缩、操作与查询处理系统的实现,TP311.13
  2. 基于元数据的农田信息存储、管理和共享研究,S126
  3. 数字图像盲取证技术研究,TP391.41
  4. 广域网数据压缩算法的研究与实现,TP391.41
  5. 基于条件随机场的中文分词技术的研究与实现,TP391.1
  6. 达梦数据库数据字典设计与实现,TP311.13
  7. 主观题自动评分技术研究,TP391.1
  8. 心音信号的等效分析模型和特征参数提取的研究,TN911.6
  9. 融合多种信号特征的模拟电路故障诊断研究,TN710
  10. 基于WebHarvest的中文财经新闻搜索引擎的设计与实现,TP311.52
  11. 基于稀疏表示的高空间分辨率遥感影像纹理描述方法的研究,TP751
  12. 基于自适应字典稀疏表示超分辨率重建的视频编码技术,TN919.81
  13. 企业邮件监管系统的设计与实现,TP393.098
  14. 卫星任务规划分布式协同平台流程设计及算法研究,TP751
  15. 在线字典训练及加权差异性稀疏表示的研究,TP391.41
  16. DNA序列数据压缩算法研究,TP311.13
  17. 视频中人体行为识别的判别稀疏编码方法研究,TP391.41
  18. 《华英字典》及其新义研究,H316
  19. 基于WEB的社区智能医疗服务系统的研究,TP311.52
  20. 超复数稀疏表示及其应用的研究,TP391.41

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机软件 > 程序设计、软件工程 > 程序设计 > 程序设计方法
© 2012 www.xueweilunwen.com