学位论文 > 优秀研究生学位论文题录展示
XML文档过滤系统的模型构建与优化
作 者: 张丽丽
导 师: 赵合计
学 校: 山东大学
专 业: 计算机软件与理论
关键词: XML文档过滤 模型构建 流索引 XPath 有限自动机
分类号: TP391.1
类 型: 硕士论文
年 份: 2011年
下 载: 5次
引 用: 0次
阅 读: 论文下载
内容摘要
虽然可扩展标记语言(eXtensible Markup Language, XML)诞生的时间并不长,但它作为数据描述和信息交换的标准,已经得到广泛应用。目前,Internet、企业和政府部门的管理系统、个人计算机中都采用某种形式的XML来存储数据和交换信息,因此对XML数据的查询和过滤显得日益重要。XML文档过滤系统一般采用XPath表达式来表示用户的个性化信息,而有限自动机[23]可以完美的对XPath进行建模,因此,当前的XML文档过滤系统一般都是基于XPath和有限自动机的。传统的XML文档过滤系统需要扫描和解析XML文档中的每一个元素,增加了过滤代价,影响了过滤效率。本文首先提出了一种称为流索引的XML索引机制,直接跳过那些无用元素及其子元素,从而快速定位到有效的元素位置。该机制在最大程度上减少了处理元素的数量,提高了处理效率。实验结果表明,流索引具有线性的时间复杂度,能够提高XML过滤的处理效率。上述技术是对XML文档进行处理,而对XPath表达式中含谓词和嵌套路径的情况也是XML过滤系统的重点研究问题。针对这种情况,本文提出一种新的自动机建模思想。它将XPath表达式的每个节点都建模成自动机状态间的转换触发条件,并且该思想只用一个自动机即可,不用为每个分支结构都定义一个自动机或过滤器。本文还对含AND的情况进行了模型优化,并给出了该思想在XML文档过滤系统中的应用。实验结果表明,对谓词和嵌套路径的处理,新模型优于传统模型。
|
全文目录
摘要 8-9 ABSTRACT 9-11 第1章 绪论 11-17 1.1 研究背景 11-12 1.2 研究的现实意义 12-13 1.3 国内外研究现状 13-15 1.4 本文的主要内容 15-16 1.5 本文的组织结构 16-17 第2章 XML过滤的关键技术 17-25 2.1 XML简介 17-18 2.2 XML的结构模型 18-20 2.2.1 XML树 18-19 2.2.2 XML流 19-20 2.3 XPath 20-24 2.3.1 轴 22 2.3.2 节点测试 22 2.3.3 谓词 22-24 2.4 本章小结 24-25 第3章 基于XPath和有限自动机的XML文档过滤系统 25-33 3.1 基于XPath的XML文档过滤系统构架 25-26 3.2 有限自动机和XPath的有限自动机表示 26-29 3.2.1 有限自动机 27 3.2.2 XPath的有限自动机表示 27-29 3.3 基于XPath和有限自动机的XML过滤模型 29-31 3.3.1 基本模型概述 29-30 3.3.2 各种模型比较 30-31 3.4 本章小结 31-33 第4章 流索引(Stream IndeX—SIX) 33-47 4.1 SIX的引入 33-34 4.2 SIX的创建 34-37 4.3 SIX在XML过滤系统中的应用 37-38 4.4 将复杂SIX应用于XML过滤系统 38-43 4.4.1 复杂SIX的创建 38-41 4.4.2 使用复杂SIX的Lazy DFA 41-43 4.5 实验 43-45 4.5.1 实验设置 43-44 4.5.2 生成数据集 44 4.5.3 实验结果 44-45 4.6 本章小结 45-47 第5章 对复杂路径构建一种新的有限自动机模型 47-59 5.1 背景 47-48 5.2 几个简单的定义 48-49 5.3 XPath的有限自动机新模型 49-51 5.3.1 模型描述 49-50 5.3.2 对有属性的XPath表达式进行建模 50 5.3.3 对有布尔逻辑运算符的XPath表达式进行建模 50-51 5.4 模型在XML过滤中的应用 51-53 5.5 对含and的XPath表达式进行模型优化 53-55 5.5.1 模型优化 53-54 5.5.2 优化模型在XML过滤中的应用 54-55 5.6 实验 55-57 5.6.1 实验一 56 5.6.2 实验二 56-57 5.7 本章小结 57-59 第6章 总结与展望 59-61 参考文献 61-65 致谢 65-67 攻读学位期间发表的学术论文 67-69 攻读学位期间参与的项目 69-70 学位论文评阅及答辩情况表 70
|
相似论文
- 模型构建在高中生物教学中的应用与实践研究,G633.91
- 中学化学虚拟实验操作诊断方法研究,TP311.52
- 情景应对模式下数字化应急预案的语义模型研究,TP391.1
- 基于有限自动机的软件行为模型评价方法研究,TP311.5
- 基于有限自动机的软件行为建模方法的研究,TP301.1
- 基于CVM的电子政务绩效评估研究,TP399-C2
- 居住区景观设计方案评价方法初探,TU984.12
- Agent在建筑工程量计算系统中应用的研究,TU723.3
- 邮轮母港区位选择研究,F592
- 河南商丘遗址旅游影响因素研究,K878
- 认知设计系统下的中学化学二级记分项目难度预测模型构建研究,G633.8
- 面向存储的正则表达式匹配算法研究,TP393.08
- 基于工作流的资源环境建模框架的设计与实现,TP311.52
- XML更新流的XQuery查询处理技术研究,TP311.13
- 保险索赔系统的协同容错层次模型研究,TP302.8
- 江西运通汽车公司销售人员胜任力模型构建及应用研究,F426.471
- 基于XPath路径表达式的选择度估算研究,TP312.2
- 基于结构索引的XML数据流的XPath查询技术研究,TP311.13
- XML文档在关系数据库中存储与查询的实现,TP311.13
- IEM(Integrated Enterprise Modeling)企业建模模型正确性检测,TP311.52
- RFID流数据索引技术研究,TP391.44
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 文字信息处理
© 2012 www.xueweilunwen.com
|