学位论文 > 优秀研究生学位论文题录展示
RDF图数据管理的关键技术研究
作 者: 吴刚
导 师: 王克宏;李涓子
学 校: 清华大学
专 业: 计算机科学与技术
关键词: RDF图 数据管理 语义Web 本体
分类号: TP393.092
类 型: 博士论文
年 份: 2008年
下 载: 408次
引 用: 6次
阅 读: 论文下载
内容摘要
语义Web使跨应用、企业和团体的数据共享与重用成为可能,而RDF是语义Web的基础,其数据模型是RDF图。与已有数据模型不同,RDF图是有向超图,能够表达隐含语义,富含文本信息,且规模庞大。这些特点造成RDF图数据管理中存在存储设计难度大,查询处理复杂且效率低,查询结果排序困难等问题。针对以上问题,本文对RDF图数据管理中的若干关键技术展开研究。首先,本文研究了隐含数据查询过程中的自反传递闭包计算问题,提出了一种基于有向图素数编码标记机制的方法:PLSD。PLSD将任意有向图上结点间可达关系(属性的自反传递性)计算转化为标记中整数的整除关系计算。与传统基于forward chaining和backward chaining的推理相比,PLSD能够更有效地实现RDF图中自反传递闭包的计算。实验表明PLSD优于同类其它标记机制。其次,针对RDF图的有向超图特点,本文提出了一种原生的RDF图存储方法:PI。该方法能够有效避免由数据模型不一致而导致的数据模型转换开销。它还具有降低存储空间开销,易于实现各种图论算法,聚簇存储RDF图有向边等特点。PI存储上结合PLSD等推理策略的语义查询系统,在LUBM测试基准实验中综合性能指标要高于对比系统。对于RDF图中的文本信息,本文提出以资源文档为索引和查询基本单位的细粒度关键词查询方法。克服了以RDF文档为单位的粗粒度关键词查询方法难与语义查询结合的问题,提高了语义查询和关键词查询的综合查全率和查准率。最后,在查询结果排序方面,提出在本体层次上对概念与关系重要性的排序方法CARRank。基于CARRank实现了实例数据层资源全局重要性排序和结合查询结果相似度与资源全局重要性的综合排序。CARRank算法利用本体中概念和关系相互增强的迭代方式计算概念重要性和关系权重,避免了对资源统计信息的依赖。并给出了其收敛性的理论证明和实验检验。实验验证了基于CARRank算法的概念重要性排序与关系权重的合理性。原型系统在中文新闻等领域的成功应用验证了本文工作的价值和意义。
|
全文目录
摘要 4-5 Abstract 5-12 第1章 绪论 12-27 1.1 语义Web 与RDF 12-13 1.2 RDF 图及其数据管理 13-22 1.2.1 RDF 图 13-16 1.2.2 RDF 图的特点 16-18 1.2.2.1 RDF 图是有向超图 16 1.2.2.2 含有隐含的数据 16-17 1.2.2.3 富含文本信息 17-18 1.2.2.4 具有网络规模的数据 18 1.2.3 RDF 图数据管理及其挑战 18-22 1.3 论文的主要工作 22-27 1.3.1 研究思路与研究内容 22-24 1.3.2 主要创新点 24-25 1.3.3 论文组织 25-27 第2章 基于素数编码机制的有向图可达关系计算 27-53 2.1 引言 27-29 2.2 相关工作 29-31 2.2.1 基于产生式规则推理的有向图可达关系计算 29-30 2.2.2 基于标记机制的有向图可达关系计算 30-31 2.3 相关知识 31-33 2.4 有向无环图情况下的素数编码标记机制 33-40 2.4.1 简单形式 33-36 2.4.2 完整形式 36-38 2.4.3 优化技术 38-40 2.4.3.1 最小公倍数 38-39 2.4.3.2 拓扑排序 39 2.4.3.3 叶子结点的标记 39-40 2.5 任意有向图情况下的素数编码标记机制PLSD 40-43 2.6 实验 43-52 2.6.1 实验设计 43-45 2.6.2 实验结果与分析 45-52 2.6.2.1 标记空间占用与构造时间开销 45-46 2.6.2.2 典型查询的响应时间 46-47 2.6.2.3 查询选择率对性能的影响 47-50 2.6.2.4 可扩展性 50-51 2.6.2.5 更新代价 51-52 2.7 小结 52-53 第3章 RDF 图的原生存储及语义查询 53-85 3.1 引言 53-55 3.2 相关工作 55-63 3.2.1 RDF 图数据管理中的存储设计相关工作 55-58 3.2.2 RDF 图数据管理中的查询处理相关工作 58-63 3.2.2.1 查询表达语言 58-60 3.2.2.2 查询处理方法 60-61 3.2.2.3 隐含数据的查询/推理 61-63 3.3 基于有向超图表示的RDF 图原生存储 63-66 3.4 基于RDF 图原生存储的语义查询 66-75 3.4.1 推理的实现 66-68 3.4.2 基于扩展SPARQL 运算符的逻辑查询计划 68-70 3.4.3 基于pD~* 语义一致性约束的查询优化策略 70-72 3.4.4 物理查询实现 72-75 3.4.4.1 基于RDF 图遍历的数据访问 72-73 3.4.4.2 结点值索引 73 3.4.4.3 PLSD 索引 73-74 3.4.4.4 三元组有序索引 74-75 3.5 实验与分析 75-84 3.5.1 实验设计 75-77 3.5.2 实验结果与分析 77-84 3.5.2.1 数据加载时间和库大小 77-79 3.5.2.2 查询完备性和可靠性 79-80 3.5.2.3 查询响应时间 80-82 3.5.2.4 综合性能 82-84 3.6 小结 84-85 第4章 细粒度的关键词索引与查询 85-102 4.1 引言 85-87 4.2 相关工作 87-88 4.3 细粒度关键词查询模型 88-89 4.4 相似度计算方法 89-92 4.4.1 扩展向量空间模型的相似度计算 90-91 4.4.2 利用 RDF 图结构信息的相似度计算 91-92 4.5 索引结构与查询处理 92-95 4.5.1 索引结构 92-94 4.5.2 查询处理 94-95 4.6 实验与分析 95-101 4.6.1 实验设计 96-99 4.6.1.1 数据集 96 4.6.1.2 查询语句 96-98 4.6.1.3 评估方法 98-99 4.6.2 实验结果分析 99-101 4.7 小结 101-102 第5章 基于本体链接分析的资源排序 102-128 5.1 引言 102-103 5.2 相关工作 103-105 5.2.1 传统链接分析算法 103-104 5.2.2 语义 Web 中的链接分析算法 104-105 5.3 基于链接分析方法计算本体中概念与关系的重要性 105-124 5.3.1 链接分析模型与相关定义 105-110 5.3.1.1 相关定义 105-109 5.3.1.2 本体设计的意识流模型 109-110 5.3.2 概念与关系相互增强的链接分析算法CARRank 110-113 5.3.3 迭代收敛性证明 113-116 5.3.4 实验分析 116-124 5.3.4.1 实验设计 116-117 5.3.4.2 排序结果比较 117-122 5.3.4.3 收敛性比较 122-124 5.4 资源的全局重要性与查询结果的排序 124-127 5.4.1 资源的全局重要性 124-125 5.4.2 考虑全局重要性和查询结果相似度的综合资源排序 125 5.4.3 实验结果 125-127 5.5 小结 127-128 第6章 RDF 图数据管理原型系统及应用 128-139 6.1 引言 128 6.2 SWARMS 系统 128-132 6.2.1 SWARMS 整体结构 128-130 6.2.2 RDF 数据管理模块的设计 130-132 6.2.3 RDF 数据管理模块的实现 132 6.3 SWARMS 的应用 132-138 6.3.1 软件项目领域 133 6.3.2 中文新闻领域 133-135 6.3.3 社会网络分析领域 135-138 6.4 小结 138-139 第7章 结论和进一步的研究工作 139-142 7.1 论文总结 139-141 7.2 进一步的研究工作 141-142 插图索引 142-144 表格索引 144-145 参考文献 145-153 致谢 153-154 个人简历、在学期间发表的学术论文与研究成果 154-156
|
相似论文
- 哲学思想在指导中学数学教学中的作用,G633.6
- 面向业务过程的服务动态组合方法研究,TP393.09
- 基于本体的语义检索研究,TP391.3
- 不同人群本体感觉差异性比较及脑机制研究,B845
- 卢卡奇《关于社会存在本体论》中的劳动范畴,B515
- 基于分布式描述逻辑的本体模块化构建方法研究,TP391.1
- 一种基于领域本体的语义Web服务匹配和组合方法,TP393.09
- 拉图尔的行动者网络理论研究,N02
- 基于GIS的矿井水灾害地球物理信息管理系统研究,TD745
- 基于跨语言信息检索的企业竞争情报收集系统模型研究,TP391.3
- 220kV输电线路除冰机器人机械本体研究,TP242
- 基于本体的食品投诉文档文本聚类研究,TP391.1
- 关系数据库到RDF(S)映射方法的研究,TP311.13
- 基于语义的Web服务发现研究,TP393.09
- 本体在智能小区中的应用研究,TP391.1
- 基于领域本体的海洋环境数据仓库设计,TP311.13
- 基于AutoCAD的协同设计管理系统的研究,TP311.52
- 企业级软件组件质量保障与快速部团策略的研究,TP311.53
- 情景应对模式下数字化应急预案的语义模型研究,TP391.1
- 一种基于语义的建筑工程质量检测方法研究,TP391.1
- 雷达高度表数据管理系统设计与实现,TP311.52
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 计算机网络 > 一般性问题 > 计算机网络应用程序 > 网络浏览器
© 2012 www.xueweilunwen.com
|