学位论文 > 优秀研究生学位论文题录展示
基于双路索引的XML查询优化研究
作 者: 姜蓉
导 师: 易军凯
学 校: 北京化工大学
专 业: 计算机应用技术
关键词: 双路索引 倒排索引 查询优化
分类号: TP311.13
类 型: 硕士论文
年 份: 2010年
下 载: 61次
引 用: 1次
阅 读: 论文下载
内容摘要
XML是一种可扩展的标记语言,由于其丰富的表达能力和自描述性、灵活性等特点,被广泛应用于Web环境下数据的表示和共享。随着大量数据以XML格式保存,如何高效、系统、科学地管理XML文档已成为数据库研究领域中的一个重要挑战。本文首先研究了从XML模式到关系模式之间的映射,然后给出了一个基于Schema的XML存储模型,在这个存储模型基础上研究了XML查询语言和索引查询技术;结合多种索引方法,提出了双路索引模型,最后是它的查询处理算法,大体上包含以下内容:(1)由于采用传统的模型来存储XML文档虽然模型简单,但是它仅适合于传统的以从上到下或从下到上顺序遍历XML文档,查询效率较低,本文在改进的基础上提出了一个基于Schema的XML存储优化模型。利用在实际应用中经常存在的XML数据的模式信息-XML Schema,根据相应的转换规则,生成基于关系数据库的存储模型。与传统方法相比,其优点在于:将传统的大表集中存储分散成相互关联的小表存储,适合从任意层次遍历XML文档。当文档比较大、节点数比较多时,利用该存储模型进行查询,程序不必一层一层逐个节点遍历文档,提高了查询效率。此外,它还为索引的建立提供一个相对持久和稳定的参考。(2)在基于Schema的XML存储模型上,提出了一种新的XML文件索引方法-DI索引。目前的路径索引多倾向于解决绝对路径表达式的查询,而对于相对路径表达式的处理,得到满足路径表达式的结果可能需要遍历整个索引,付出较高的查询代价。DI索引方法采用倒排文件索引机制及中文分词技术,建立了绝对索引模型和相对索引模型,能有效支持各种形式的路径表达式,又不会占用过大的空间。绝对索引模型将查询路径表达式缩短,减少了比较次数,相对索引模型建立父子索引表补全路径,用较小的索引结构替代原始查询。利用这种索引方法克服了元素查找总是从树的根部开始进行的缺陷,节约了索引存储空间,提高了查询速度。(3)基于DI索引,本文还研究给出了相关查询处理的算法。采用Fabric索引和DI索引,对3种不同的查询语句进行了测试,给出了模型仿真试验结果。实验结果表明,该方法可以有效地提高查询处理的性能。
|
全文目录
学位论文数据集 3-4 摘要 4-6 ABSTRACT 6-13 第一章 绪论 13-21 1.1 研究的背景和意义 13-14 1.2 国内外研究现状 14-18 1.3 课题的难点 18 1.4 课题的主要创新点 18-19 1.5 论文的研究内容和组织结构 19-21 1.5.1 论文的主要研究内容 19 1.5.2 论文的组织 19-21 第二章 XML存储模型的研究与改进 21-39 2.1 基于模式映射的存储模型研究 21-33 2.1.1 XML模式及映射 21-26 2.1.2 典型的XML-RDB映射方法 26-30 2.1.3 现有的存储模型及其不足 30-33 2.2 现有XML存储模型的改进 33-35 2.3 存储模型实例与分析 35-36 2.4 本章小结 36-39 第三章 双路索引模型的提出与实现 39-57 3.1 XML查询语言 39-41 3.2 XML索引查询处理 41-46 3.2.1 典型的索引查询技术 41-45 3.2.2 待解决的问题 45-46 3.3 双路索引模型的提出 46-48 3.3.1 模型相关概念定义 46-47 3.3.2 绝对索引模型 47-48 3.3.3 相对索引模型 48 3.4 双路索引模型的实现 48-53 3.4.1 双路索引的建立 48-49 3.4.2 中文分词算法 49-52 3.4.3 倒排文件索引 52-53 3.5 双路索引查询优化算法 53-54 3.6 索引模型实例与分析 54-56 3.6.1 模型实例 54-56 3.6.2 查询实例 56 3.7 本章小结 56-57 第四章 实验结果及分析 57-61 4.1 实验准备 57-59 4.2 实验结果分析 59-60 4.3 本章小结 60-61 第五章 总结与展望 61-63 5.1 工作总结 61 5.2 展望 61-63 参考文献 63-67 致谢 67-69 研究成果及发表的学术论文 69-71 作者及导师简介 71-72 北京化工大学硕士研究生学位论文答辩委员会决议书 72-73
|
相似论文
- 海量多数据库集成系统的查询处理研究,TP311.13
- 多核环境下内存数据库查询优化的研究,TP311.13
- 达梦嵌入式数据库的执行计划缓存研究,TP311.13
- 面向非结构化数据查询优化的存储系统,TP333
- 达梦嵌入式数据库子查询的实现和扁平化,TP311.13
- RFID复杂事件实时查询处理及其优化策略,TP391.44
- 基于社交网络好友关系的图查询算法研究与应用,TP391.3
- 基于Hadoop的倒排索引技术的研究,TP391.3
- 基于接口匹配的语义Web服务发现方法研究,TP391.1
- 多格式海量数据统一存取的效率优化,TP311.13
- 海量数据存储与全文检索,TP333
- 粒子群算法在查询优化中的应用,TP391.3
- 基于数据块采样的PostgreSQL统计信息估算方法的研究,TP311.13
- 基于倒排索引的压缩算法性能研究,TP391.3
- 管理信息系统中的DB2数据库查询优化研究,TP311.13
- 基于物化视图的数据查询与整合技术研究,TP311.13
- 基于Lucene的网页抓取与检索系统,TP393.092
- 移动垂直搜索系统的研究,TP391.3
- 基于XPath路径表达式的选择度估算研究,TP312.2
- J2EE应用系统中数据库性能的优化设计,TP311.13
- 任务执行器软件构架及优化方法研究,TP311.52
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机软件 > 程序设计、软件工程 > 程序设计 > 数据库理论与系统
© 2012 www.xueweilunwen.com
|