学位论文 > 优秀研究生学位论文题录展示
基于Linked Data的大规模语义数据分布式检索研究
作 者: 李旭
导 师: 石红
学 校: 天津大学
专 业: 计算机科学与技术
关键词: RDF 分布式索引 MapReduce 语义排序
分类号: TP391.1
类 型: 硕士论文
年 份: 2012年
下 载: 5次
引 用: 0次
阅 读: 论文下载
内容摘要
随着链接数据运动的开展,越来越多的RDF数据在Web上发布,并且其数量增长迅速。如何能够为这些大规模的RDF数据提供高效检索服务成为了目前的研究重点。提出了一种大规模RDF数据分布式索引方案,用于高效、准确地检索RDF数据。在此基础上,将语义因子引入到传统IR排序模型中,设计并实现了TreeRank语义排序模型,向用户提供带有语义的RDF数据关键字检索服务。利用Cassandra分布式键值存储库的底层数据结构创建倒排索引,具有高度的可扩展性;针对RDF数据的模型特点在传统索引中添加了RDF资源的位置信息,有效地支持精确的关键字查询的快速执行;使用MapReduce框架一次性实现了RDF数据装载、编码以及索引的创建,具有高度的整合性;提出引入辅助关键字的查询模式,使系统能够智能地识别用户的查询意图;使用ORDPATHs对本体中的类进行编码,在编码层面直接体现类与类之间的继承关系;为RDF数据的TBox创建分布式倒排索引,能够根据用户的查询意图计算类的相关度;给出TreeRank语义排序算法的定义及公式,实现语义排序。综上,该检索方案能够在保证高效率创建索引的同时,利用语义排序算法对查询结果进行排序,从而为用户提供快速、精确的大规模RDF数据语义检索服务,对语义Web领域的研究具有一定的指导作用。
|
全文目录
摘要 3-4 ABSTRACT 4-7 第一章 绪论 7-9 1.1 课题的背景 7 1.2 研究目标和主要内容 7-8 1.3 论文组织结构 8-9 第二章 相关研究综述 9-19 2.1 语义检索系统的研究现状 9-13 2.1.1 文档搜索引擎 10-11 2.1.2 实体搜索引擎 11 2.1.3 多媒体信息搜索引擎 11-12 2.1.4 基于关系的语义检索系统 12 2.1.5 语义分析 12-13 2.1.6 基于数据挖掘的语义搜索 13 2.2 检索系统的评价 13-17 2.2.1 标准测试集 14 2.2.2 无序检索结果的评价方法 14-16 2.2.3 有序检索结果的评价方法 16-17 2.3 本文相关工作 17-19 第三章 分布式倒排索引模型的设计与实现 19-28 3.1 RDF 文档的基本定义 19-20 3.2 语义倒排索引的结构设计 20-22 3.2.1 基本索引模型 20-22 3.2.2 改进索引模型 22 3.3 不同索引结构的查询模型 22-23 3.4 基于 MapReduce 的倒排索引实现算法 23-28 3.4.1 第一次 MapReduce 24-26 3.4.2 第二次 MapReduce 26-28 第四章 TreeRank 语义排序模型设计与实现 28-39 4.1 带有辅助关键字的查询模式 29-30 4.2 TBox 倒排索引结构设计与实现 30-36 4.2.1 本体类的编码 31-33 4.2.2 TBox 索引结构 33-35 4.2.3 RO 值的计算 35-36 4.3 TreeRank 语义排序算法 36-39 第五章 分布式语义检索系统的评价 39-49 5.1 数据的预处理 39-40 5.2 创建语义搜索引擎测评数据集 40-42 5.3 实验设计及实验结果 42-49 5.3.1 分布式倒排索引模型评测 42-45 5.3.2 TreeRank 语义排序模型评测 45-47 5.3.3 系统演示 47-49 第六章 总结与展望 49-51 6.1 总结 49 6.2 展望 49-51 参考文献 51-54 发表论文和参加科研情况说明 54-55 致谢 55
|
相似论文
- 基于Map/Reduce框架的分布式日志分析系统的研究及应用,TP311.52
- 一种面向海量数据综合评价的树状数据结构的设计与研究,TP311.12
- RDF/RDFS到关系数据库模式映射方法的研究,TP311.13
- 关系数据库到RDF(S)映射方法的研究,TP311.13
- 基于存储优化模型的RDF数据查询机制研究,TP311.13
- 高速网络环境下的入侵检测系统的研究,TP393.08
- 基于Hadoop的文本分类研究,TP391.1
- 基于Hadoop的分布式服务注册中心研究和实现,TP393.09
- 基于多核CPU的任务级数据处理研究及其在集群平台下的性能测试,TP274
- 数据中心Hadoop部署与追踪系统研究,TP308
- 云环境下MapReduce容错技术的研究,TP302.8
- 基于插件的语义数据可视化系统及其应用,TP391.41
- 分布式图像管理系统的设计与实现,TP311.52
- 一个可扩展的MapReduce原型设计与实现,TP311.52
- 基于MapReduce的分布式文本数据过滤技术研究与系统实现,TP391.1
- 基于段落指纹的大规模近似网页检测算法研究,TP393.092
- MapReduce FairScheduler的高性能优化及超大规模集群模拟器设计及实现,TP311.13
- 基于列存储的RFID数据的管理技术的研究与应用,TP315
- 高性能计算体系结构下的海量数据处理分析与优化,TP338
- 分布式系统中的信息流控制模型的研究,TP316.4
- 数据密集型计算系统中的作业调度技术研究,TP311.13
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 文字信息处理
© 2012 www.xueweilunwen.com
|