学位论文 > 优秀研究生学位论文题录展示

XML文档过滤系统的模型构建与优化

作 者: 张丽丽
导 师: 赵合计
学 校: 山东大学
专 业: 计算机软件与理论
关键词: XML文档过滤 模型构建 流索引 XPath 有限自动机
分类号: TP391.1
类 型: 硕士论文
年 份: 2011年
下 载: 5次
引 用: 0次
阅 读: 论文下载
 

内容摘要


虽然可扩展标记语言(eXtensible Markup Language, XML)诞生的时间并不长,但它作为数据描述和信息交换的标准,已经得到广泛应用。目前,Internet、企业和政府部门的管理系统、个人计算机中都采用某种形式的XML来存储数据和交换信息,因此对XML数据的查询和过滤显得日益重要。XML文档过滤系统一般采用XPath表达式来表示用户的个性化信息,而有限自动机[23]可以完美的对XPath进行建模,因此,当前的XML文档过滤系统一般都是基于XPath和有限自动机的。传统的XML文档过滤系统需要扫描和解析XML文档中的每一个元素,增加了过滤代价,影响了过滤效率。本文首先提出了一种称为流索引的XML索引机制,直接跳过那些无用元素及其子元素,从而快速定位到有效的元素位置。该机制在最大程度上减少了处理元素的数量,提高了处理效率。实验结果表明,流索引具有线性的时间复杂度,能够提高XML过滤的处理效率。上述技术是对XML文档进行处理,而对XPath表达式中含谓词和嵌套路径的情况也是XML过滤系统的重点研究问题。针对这种情况,本文提出一种新的自动机建模思想。它将XPath表达式的每个节点都建模成自动机状态间的转换触发条件,并且该思想只用一个自动机即可,不用为每个分支结构都定义一个自动机或过滤器。本文还对含AND的情况进行了模型优化,并给出了该思想在XML文档过滤系统中的应用。实验结果表明,对谓词和嵌套路径的处理,新模型优于传统模型。

全文目录


摘要  8-9
ABSTRACT  9-11
第1章 绪论  11-17
  1.1 研究背景  11-12
  1.2 研究的现实意义  12-13
  1.3 国内外研究现状  13-15
  1.4 本文的主要内容  15-16
  1.5 本文的组织结构  16-17
第2章 XML过滤的关键技术  17-25
  2.1 XML简介  17-18
  2.2 XML的结构模型  18-20
    2.2.1 XML树  18-19
    2.2.2 XML流  19-20
  2.3 XPath  20-24
    2.3.1 轴  22
    2.3.2 节点测试  22
    2.3.3 谓词  22-24
  2.4 本章小结  24-25
第3章 基于XPath和有限自动机的XML文档过滤系统  25-33
  3.1 基于XPath的XML文档过滤系统构架  25-26
  3.2 有限自动机和XPath的有限自动机表示  26-29
    3.2.1 有限自动机  27
    3.2.2 XPath的有限自动机表示  27-29
  3.3 基于XPath和有限自动机的XML过滤模型  29-31
    3.3.1 基本模型概述  29-30
    3.3.2 各种模型比较  30-31
  3.4 本章小结  31-33
第4章 流索引(Stream IndeX—SIX)  33-47
  4.1 SIX的引入  33-34
  4.2 SIX的创建  34-37
  4.3 SIX在XML过滤系统中的应用  37-38
  4.4 将复杂SIX应用于XML过滤系统  38-43
    4.4.1 复杂SIX的创建  38-41
    4.4.2 使用复杂SIX的Lazy DFA  41-43
  4.5 实验  43-45
    4.5.1 实验设置  43-44
    4.5.2 生成数据集  44
    4.5.3 实验结果  44-45
  4.6 本章小结  45-47
第5章 对复杂路径构建一种新的有限自动机模型  47-59
  5.1 背景  47-48
  5.2 几个简单的定义  48-49
  5.3 XPath的有限自动机新模型  49-51
    5.3.1 模型描述  49-50
    5.3.2 对有属性的XPath表达式进行建模  50
    5.3.3 对有布尔逻辑运算符的XPath表达式进行建模  50-51
  5.4 模型在XML过滤中的应用  51-53
  5.5 对含and的XPath表达式进行模型优化  53-55
    5.5.1 模型优化  53-54
    5.5.2 优化模型在XML过滤中的应用  54-55
  5.6 实验  55-57
    5.6.1 实验一  56
    5.6.2 实验二  56-57
  5.7 本章小结  57-59
第6章 总结与展望  59-61
参考文献  61-65
致谢  65-67
攻读学位期间发表的学术论文  67-69
攻读学位期间参与的项目  69-70
学位论文评阅及答辩情况表  70

相似论文

  1. 模型构建在高中生物教学中的应用与实践研究,G633.91
  2. 中学化学虚拟实验操作诊断方法研究,TP311.52
  3. 情景应对模式下数字化应急预案的语义模型研究,TP391.1
  4. 基于有限自动机的软件行为模型评价方法研究,TP311.5
  5. 基于有限自动机的软件行为建模方法的研究,TP301.1
  6. 基于CVM的电子政务绩效评估研究,TP399-C2
  7. 居住区景观设计方案评价方法初探,TU984.12
  8. Agent在建筑工程量计算系统中应用的研究,TU723.3
  9. 邮轮母港区位选择研究,F592
  10. 河南商丘遗址旅游影响因素研究,K878
  11. 认知设计系统下的中学化学二级记分项目难度预测模型构建研究,G633.8
  12. 面向存储的正则表达式匹配算法研究,TP393.08
  13. 基于工作流的资源环境建模框架的设计与实现,TP311.52
  14. XML更新流的XQuery查询处理技术研究,TP311.13
  15. 保险索赔系统的协同容错层次模型研究,TP302.8
  16. 江西运通汽车公司销售人员胜任力模型构建及应用研究,F426.471
  17. 基于XPath路径表达式的选择度估算研究,TP312.2
  18. 基于结构索引的XML数据流的XPath查询技术研究,TP311.13
  19. XML文档在关系数据库中存储与查询的实现,TP311.13
  20. IEM(Integrated Enterprise Modeling)企业建模模型正确性检测,TP311.52
  21. RFID流数据索引技术研究,TP391.44

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 文字信息处理
© 2012 www.xueweilunwen.com