学位论文 > 优秀研究生学位论文题录展示

基于Linked Data的大规模语义数据分布式检索研究

作 者: 李旭
导 师: 石红
学 校: 天津大学
专 业: 计算机科学与技术
关键词: RDF 分布式索引 MapReduce 语义排序
分类号: TP391.1
类 型: 硕士论文
年 份: 2012年
下 载: 5次
引 用: 0次
阅 读: 论文下载
 

内容摘要


随着链接数据运动的开展,越来越多的RDF数据在Web上发布,并且其数量增长迅速。如何能够为这些大规模的RDF数据提供高效检索服务成为了目前的研究重点。提出了一种大规模RDF数据分布式索引方案,用于高效、准确地检索RDF数据。在此基础上,将语义因子引入到传统IR排序模型中,设计并实现了TreeRank语义排序模型,向用户提供带有语义的RDF数据关键字检索服务。利用Cassandra分布式键值存储库的底层数据结构创建倒排索引,具有高度的可扩展性;针对RDF数据的模型特点在传统索引中添加了RDF资源的位置信息,有效地支持精确的关键字查询的快速执行;使用MapReduce框架一次性实现了RDF数据装载、编码以及索引的创建,具有高度的整合性;提出引入辅助关键字的查询模式,使系统能够智能地识别用户的查询意图;使用ORDPATHs对本体中的类进行编码,在编码层面直接体现类与类之间的继承关系;为RDF数据的TBox创建分布式倒排索引,能够根据用户的查询意图计算类的相关度;给出TreeRank语义排序算法的定义及公式,实现语义排序。综上,该检索方案能够在保证高效率创建索引的同时,利用语义排序算法对查询结果进行排序,从而为用户提供快速、精确的大规模RDF数据语义检索服务,对语义Web领域的研究具有一定的指导作用。

全文目录


摘要  3-4
ABSTRACT  4-7
第一章 绪论  7-9
  1.1 课题的背景  7
  1.2 研究目标和主要内容  7-8
  1.3 论文组织结构  8-9
第二章 相关研究综述  9-19
  2.1 语义检索系统的研究现状  9-13
    2.1.1 文档搜索引擎  10-11
    2.1.2 实体搜索引擎  11
    2.1.3 多媒体信息搜索引擎  11-12
    2.1.4 基于关系的语义检索系统  12
    2.1.5 语义分析  12-13
    2.1.6 基于数据挖掘的语义搜索  13
  2.2 检索系统的评价  13-17
    2.2.1 标准测试集  14
    2.2.2 无序检索结果的评价方法  14-16
    2.2.3 有序检索结果的评价方法  16-17
  2.3 本文相关工作  17-19
第三章 分布式倒排索引模型的设计与实现  19-28
  3.1 RDF 文档的基本定义  19-20
  3.2 语义倒排索引的结构设计  20-22
    3.2.1 基本索引模型  20-22
    3.2.2 改进索引模型  22
  3.3 不同索引结构的查询模型  22-23
  3.4 基于 MapReduce 的倒排索引实现算法  23-28
    3.4.1 第一次 MapReduce  24-26
    3.4.2 第二次 MapReduce  26-28
第四章 TreeRank 语义排序模型设计与实现  28-39
  4.1 带有辅助关键字的查询模式  29-30
  4.2 TBox 倒排索引结构设计与实现  30-36
    4.2.1 本体类的编码  31-33
    4.2.2 TBox 索引结构  33-35
    4.2.3 RO 值的计算  35-36
  4.3 TreeRank 语义排序算法  36-39
第五章 分布式语义检索系统的评价  39-49
  5.1 数据的预处理  39-40
  5.2 创建语义搜索引擎测评数据集  40-42
  5.3 实验设计及实验结果  42-49
    5.3.1 分布式倒排索引模型评测  42-45
    5.3.2 TreeRank 语义排序模型评测  45-47
    5.3.3 系统演示  47-49
第六章 总结与展望  49-51
  6.1 总结  49
  6.2 展望  49-51
参考文献  51-54
发表论文和参加科研情况说明  54-55
致谢  55

相似论文

  1. 基于Map/Reduce框架的分布式日志分析系统的研究及应用,TP311.52
  2. 一种面向海量数据综合评价的树状数据结构的设计与研究,TP311.12
  3. RDF/RDFS到关系数据库模式映射方法的研究,TP311.13
  4. 关系数据库到RDF(S)映射方法的研究,TP311.13
  5. 基于存储优化模型的RDF数据查询机制研究,TP311.13
  6. 高速网络环境下的入侵检测系统的研究,TP393.08
  7. 基于Hadoop的文本分类研究,TP391.1
  8. 基于Hadoop的分布式服务注册中心研究和实现,TP393.09
  9. 基于多核CPU的任务级数据处理研究及其在集群平台下的性能测试,TP274
  10. 数据中心Hadoop部署与追踪系统研究,TP308
  11. 云环境下MapReduce容错技术的研究,TP302.8
  12. 基于插件的语义数据可视化系统及其应用,TP391.41
  13. 分布式图像管理系统的设计与实现,TP311.52
  14. 一个可扩展的MapReduce原型设计与实现,TP311.52
  15. 基于MapReduce的分布式文本数据过滤技术研究与系统实现,TP391.1
  16. 基于段落指纹的大规模近似网页检测算法研究,TP393.092
  17. MapReduce FairScheduler的高性能优化及超大规模集群模拟器设计及实现,TP311.13
  18. 基于列存储的RFID数据的管理技术的研究与应用,TP315
  19. 高性能计算体系结构下的海量数据处理分析与优化,TP338
  20. 分布式系统中的信息流控制模型的研究,TP316.4
  21. 数据密集型计算系统中的作业调度技术研究,TP311.13

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 文字信息处理
© 2012 www.xueweilunwen.com