学位论文 > 优秀研究生学位论文题录展示
中文XML压缩技术研究
作 者: 张山山
导 师: 路松峰
学 校: 华中科技大学
专 业: 计算机应用技术
关键词: 中文可扩展标记语言文档 数据压缩 中文分词 字典
分类号: TP311.11
类 型: 硕士论文
年 份: 2011年
下 载: 22次
引 用: 0次
阅 读: 论文下载
内容摘要
随着可扩展标记语言(Extensible Markup Language,简称XML)的广泛应用,互联网以及本地计算机上存在着大量的中文XML文档需要存储和交换。XML是一种元语言,可以用来描述其它数据,并且XML具有简单、灵活、跨平台等特性。但是XML格式冗余巨大,空间利用率低。为了提高空间利用率,提高数据交换的速度,给出了一种高压缩率中文XML文档的专用压缩解决方案COX(Chinese-Oriented XML Compressor)并实现了该系统。针对XML文档的特性,分析了XML文档中存在的结构和内容上的冗余信息,针对这些冗余给出了COX压缩技术。COX压缩中文XML文档的过程主要分为以下几个步骤:建立字典,查找字典,编码和整合压缩。建立字典分为三个步骤:对XML文档进行中文分词,获得分词及对应的词频信息;根据分词长度和词频信息过滤掉分词长度较短或(和)词频较低的分词;对获得的分词字典根据词频进行排序,高频词汇位于字典首部,低频词汇位于字典尾部,至此得到了编码字典。建立字典之后,再次扫描XML文档,根据一定的条件对数据进行分类,建立相应的容器,查找字典,对于字典项进行前缀编码,对其它类型的数据采用相应的编码方式进行编码;使用通用压缩算法LZMA对编码后的容器进行整合压缩。COX使用了中文分词,建立字典,划分容器等技术,其中建立字典是COX的关键技术。将COX和其它一些流行压缩软件进行对比实验,实验结果表明在相同的实验环境下对所选取的所有数据集COX的压缩率都超过了其它软件。COX提高了空间利用率,为中文XML文档压缩提供了良好的解决方案。
|
全文目录
摘要 4-5 Abstract 5-9 1 绪论 9-18 1.1 研究背景及研究意义 9-10 1.2 国内外研究现状 10-14 1.3 主要研究内容 14-16 1.4 本文的组织结构 16-18 2 COX 压缩系统分析与设计 18-30 2.1 相关定义 18-19 2.2 XML 文档中的冗余 19-20 2.3 压缩系统体系结构 20-21 2.4 压缩系统模块设计 21-29 2.5 本章小结 29-30 3 COX 系统实现 30-42 3.1 建立字典 30-34 3.2 划分容器 34-38 3.3 压缩实例 38-41 3.4 本章小结 41-42 4 实验 42-47 4.1 实验数据源 42-43 4.2 实验环境 43 4.3 实验结果 43-45 4.4 实验结果分析 45-46 4.5 本章小结 46-47 5 总结与展望 47-49 5.1 全文总结 47-48 5.2 未来的工作 48-49 致谢 49-50 参考文献 50-54
|
相似论文
- 基于BAP的数据压缩、操作与查询处理系统的实现,TP311.13
- 基于元数据的农田信息存储、管理和共享研究,S126
- 数字图像盲取证技术研究,TP391.41
- 广域网数据压缩算法的研究与实现,TP391.41
- 基于条件随机场的中文分词技术的研究与实现,TP391.1
- 达梦数据库数据字典设计与实现,TP311.13
- 主观题自动评分技术研究,TP391.1
- 心音信号的等效分析模型和特征参数提取的研究,TN911.6
- 融合多种信号特征的模拟电路故障诊断研究,TN710
- 基于WebHarvest的中文财经新闻搜索引擎的设计与实现,TP311.52
- 基于稀疏表示的高空间分辨率遥感影像纹理描述方法的研究,TP751
- 基于自适应字典稀疏表示超分辨率重建的视频编码技术,TN919.81
- 企业邮件监管系统的设计与实现,TP393.098
- 卫星任务规划分布式协同平台流程设计及算法研究,TP751
- 在线字典训练及加权差异性稀疏表示的研究,TP391.41
- DNA序列数据压缩算法研究,TP311.13
- 视频中人体行为识别的判别稀疏编码方法研究,TP391.41
- 《华英字典》及其新义研究,H316
- 基于WEB的社区智能医疗服务系统的研究,TP311.52
- 超复数稀疏表示及其应用的研究,TP391.41
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机软件 > 程序设计、软件工程 > 程序设计 > 程序设计方法
© 2012 www.xueweilunwen.com
|