学位论文 > 优秀研究生学位论文题录展示

基于双路索引的XML查询优化研究

作 者: 姜蓉
导 师: 易军凯
学 校: 北京化工大学
专 业: 计算机应用技术
关键词: 双路索引 倒排索引 查询优化
分类号: TP311.13
类 型: 硕士论文
年 份: 2010年
下 载: 61次
引 用: 1次
阅 读: 论文下载
 

内容摘要


XML是一种可扩展的标记语言,由于其丰富的表达能力和自描述性、灵活性等特点,被广泛应用于Web环境下数据的表示和共享。随着大量数据以XML格式保存,如何高效、系统、科学地管理XML文档已成为数据库研究领域中的一个重要挑战。本文首先研究了从XML模式到关系模式之间的映射,然后给出了一个基于Schema的XML存储模型,在这个存储模型基础上研究了XML查询语言和索引查询技术;结合多种索引方法,提出了双路索引模型,最后是它的查询处理算法,大体上包含以下内容:(1)由于采用传统的模型来存储XML文档虽然模型简单,但是它仅适合于传统的以从上到下或从下到上顺序遍历XML文档,查询效率较低,本文在改进的基础上提出了一个基于Schema的XML存储优化模型。利用在实际应用中经常存在的XML数据的模式信息-XML Schema,根据相应的转换规则,生成基于关系数据库的存储模型。与传统方法相比,其优点在于:将传统的大表集中存储分散成相互关联的小表存储,适合从任意层次遍历XML文档。当文档比较大、节点数比较多时,利用该存储模型进行查询,程序不必一层一层逐个节点遍历文档,提高了查询效率。此外,它还为索引的建立提供一个相对持久和稳定的参考。(2)在基于Schema的XML存储模型上,提出了一种新的XML文件索引方法-DI索引。目前的路径索引多倾向于解决绝对路径表达式的查询,而对于相对路径表达式的处理,得到满足路径表达式的结果可能需要遍历整个索引,付出较高的查询代价。DI索引方法采用倒排文件索引机制及中文分词技术,建立了绝对索引模型和相对索引模型,能有效支持各种形式的路径表达式,又不会占用过大的空间。绝对索引模型将查询路径表达式缩短,减少了比较次数,相对索引模型建立父子索引表补全路径,用较小的索引结构替代原始查询。利用这种索引方法克服了元素查找总是从树的根部开始进行的缺陷,节约了索引存储空间,提高了查询速度。(3)基于DI索引,本文还研究给出了相关查询处理的算法。采用Fabric索引和DI索引,对3种不同的查询语句进行了测试,给出了模型仿真试验结果。实验结果表明,该方法可以有效地提高查询处理的性能。

全文目录


学位论文数据集  3-4
摘要  4-6
ABSTRACT  6-13
第一章 绪论  13-21
  1.1 研究的背景和意义  13-14
  1.2 国内外研究现状  14-18
  1.3 课题的难点  18
  1.4 课题的主要创新点  18-19
  1.5 论文的研究内容和组织结构  19-21
    1.5.1 论文的主要研究内容  19
    1.5.2 论文的组织  19-21
第二章 XML存储模型的研究与改进  21-39
  2.1 基于模式映射的存储模型研究  21-33
    2.1.1 XML模式及映射  21-26
    2.1.2 典型的XML-RDB映射方法  26-30
    2.1.3 现有的存储模型及其不足  30-33
  2.2 现有XML存储模型的改进  33-35
  2.3 存储模型实例与分析  35-36
  2.4 本章小结  36-39
第三章 双路索引模型的提出与实现  39-57
  3.1 XML查询语言  39-41
  3.2 XML索引查询处理  41-46
    3.2.1 典型的索引查询技术  41-45
    3.2.2 待解决的问题  45-46
  3.3 双路索引模型的提出  46-48
    3.3.1 模型相关概念定义  46-47
    3.3.2 绝对索引模型  47-48
    3.3.3 相对索引模型  48
  3.4 双路索引模型的实现  48-53
    3.4.1 双路索引的建立  48-49
    3.4.2 中文分词算法  49-52
    3.4.3 倒排文件索引  52-53
  3.5 双路索引查询优化算法  53-54
  3.6 索引模型实例与分析  54-56
    3.6.1 模型实例  54-56
    3.6.2 查询实例  56
  3.7 本章小结  56-57
第四章 实验结果及分析  57-61
  4.1 实验准备  57-59
  4.2 实验结果分析  59-60
  4.3 本章小结  60-61
第五章 总结与展望  61-63
  5.1 工作总结  61
  5.2 展望  61-63
参考文献  63-67
致谢  67-69
研究成果及发表的学术论文  69-71
作者及导师简介  71-72
北京化工大学硕士研究生学位论文答辩委员会决议书  72-73

相似论文

  1. 海量多数据库集成系统的查询处理研究,TP311.13
  2. 多核环境下内存数据库查询优化的研究,TP311.13
  3. 达梦嵌入式数据库的执行计划缓存研究,TP311.13
  4. 面向非结构化数据查询优化的存储系统,TP333
  5. 达梦嵌入式数据库子查询的实现和扁平化,TP311.13
  6. RFID复杂事件实时查询处理及其优化策略,TP391.44
  7. 基于社交网络好友关系的图查询算法研究与应用,TP391.3
  8. 基于Hadoop的倒排索引技术的研究,TP391.3
  9. 基于接口匹配的语义Web服务发现方法研究,TP391.1
  10. 多格式海量数据统一存取的效率优化,TP311.13
  11. 海量数据存储与全文检索,TP333
  12. 粒子群算法在查询优化中的应用,TP391.3
  13. 基于数据块采样的PostgreSQL统计信息估算方法的研究,TP311.13
  14. 基于倒排索引的压缩算法性能研究,TP391.3
  15. 管理信息系统中的DB2数据库查询优化研究,TP311.13
  16. 基于物化视图的数据查询与整合技术研究,TP311.13
  17. 基于Lucene的网页抓取与检索系统,TP393.092
  18. 移动垂直搜索系统的研究,TP391.3
  19. 基于XPath路径表达式的选择度估算研究,TP312.2
  20. J2EE应用系统中数据库性能的优化设计,TP311.13
  21. 任务执行器软件构架及优化方法研究,TP311.52

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机软件 > 程序设计、软件工程 > 程序设计 > 数据库理论与系统
© 2012 www.xueweilunwen.com