学位论文 > 优秀研究生学位论文题录展示

基于语义标注的元数据自动构建及其相关技术研究

作 者: 刘海学
导 师: 顾君忠
学 校: 华东师范大学
专 业: 系统分析与集成
关键词: 元数据 数据管理 信息抽取 模式匹配 信息检索
分类号: TP391.1
类 型: 博士论文
年 份: 2010年
下 载: 535次
引 用: 4次
阅 读: 论文下载
 

内容摘要


为了解决网络信息“爆炸”时代出现的诸多问题,元数据作为一种重要的应对方法和措施,已广泛应用于信息检索、信息集成及信息共享等服务中。毫无疑问,元数据自身质量的好坏决定了元数据应用服务的最终成败。为了提高元数据的服务质量,学术界和产业界主要从以下几个方面进行了大量的研究和探索。一是元数据质量相关标准的制定,建立统一的元数据标准可以有效地保证元数据的一致性和完整性,并实现规范性的交互操作,这一点已经在研究工作者中达成广泛的共识;二是元数据构建及管理方法的改进与完善,元数据构建及管理方法的改进和完善是提高元数据质量的另一种途径,目前,在元数据的模式发现、模式转换、控制策略、管理机制等诸多方面都已经开展了大量的研究工作;三是元数据质量评估的研究,学术界对此问题的讨论集中在评估指标体系、评估方法及评估用例等几方面。从目前的文献和资料中我们发现,现有的研究工作更多的从元数据创建者手动方式的角度出发,考虑了创建工具的有效性和便利性,然而,从元数据的创建者和使用者两方面考虑,这必将会引起诸如以下问题:从创建者来看,面对大量形式多样的数据集,元数据创建者需要花费一定的精力去了解数据集内容,直到对数据集的内容具有深入透彻的理解,这必将是一项繁琐沉重的工作,此外,不同创建者理解上的差异,也会导致元数据理解上的歧义;从使用者来看,用户也需要对预先定义好的元数据具备正确的认识,否则在创建者和使用者之间就会产生认知上的“鸿沟”,用户自然就无法有效的查询获取需求信息。因此,为了解决以上问题,构建高质量的元数据服务,本文首先提出了一种基于语义标注构建元数据的方法,利用数据集中已有的语义标注信息自动构建生成元数据。该方法在考虑元数据构建效率的同时,充分借鉴了知识共享的理念,探索了利用语义标注信息传递出来的多视角信息消除主观认知上“鸿沟”的可行性,并对不同结构视图下的元数据识别策略进行了针对性研究。在此基础上,本文进一步研究了元数据模式语义异构的问题,提出了一种支持元数据模式语义集成的模式匹配方法。为了验证方法的适用性、评估元数据的质量,本文又提出了一种可以有效提高查准率,抑制查全率低引起目标缺失的元数据查询方法。考虑到档案信息资源自身特有的使用价值及其在基础信息资源中重要的地位[1],本文在实验设计的出发点以及测试数据集的选择上,都将目标定位在了这个领域之中。具体来讲,本文各项研究成果主要包含以下几个方面:(1)在分析基于模板和基于机器学习两类主要元数据抽取方法的基础上,提出了一个自动构建元数据的方法(SAMC)。该方法能克服上述两类方法的缺点与不足,不但能充分地利用现有语义标注信息对元数据进行有效的识别和定位,而且还有机地将统计学理论、信息的结构化特征、视觉布局特征等融合在一起,为SAMC的性能提供了有力的保证,因而,该方法构建出的元数据具有更高的精确度与更强的信息表达能力,能够很好地满足对构建高质量元数据的要求。(2)提出了不同布局模式下识别元数据的算法。为了提高本方法中生成元数据的可行性,本文考虑了语义标注信息结构视图差异的情况,重点研究了在总分、递进、综合分布等序列模式下,语义标注信息所表现出来的差异特征,针对性的设计了相应的元数据识别算法。算法中有效地利用了树型数据结构的层次、线性数据结构的次序以及信息分布的频繁程度等特征,从而使元数据识别的效果以及性能等方面都有了很好的表现。(3)提出了能有效支持元数据属性级语义集成的模式匹配方法(PISMatching)。与相关研究相比,本研究面临的是一个以丰富元数据模式语义信息为目的、以多数据源元数据模式合并为任务的新问题。本文尝试了将本体、叙词表和概念相似度计算结合使用,实现了整合各自优点的目的,在实现难易、复杂度、语义强度等方面都拥有更好的性能。本体的引入为匹配方法准确性的提高提供了强有力的领域上下文支持,基于关联信息联想和概率统计的概念相似度方法也为模式匹配提供了一个新的度量标准,该度量标准能够发现积极相关的属性以得到潜在的属性组,也能将同义关系的属性组保留下来。在PISMatching具体设计的表现力上,本文更注重匹配程度的高低排序而不是差距值的计算,这样对实际应用更具意义;更注重对匹配可利用信息的捕获,而减少对特定匹配模式的依赖,这样使研究成果具有更大的灵活性、扩展性和更广泛的利用价值。(4)提出了利用域上下文信息度量相关性的元数据查询方法(MFCQuery)。与传统元数据查询方式相比,为了能在查准率、查全率上有进一步地提高,MFCQuery主要从两个方面进行了扩展:一是利用向量空间模型(Vector Space Model)在用户查询信息和元数据域上下文信息之间建立相关性计算矩阵,利用域上下文信息与用户查询信息相关性的高低来判断用户的真实查询意图,用以提高检索结果的查全率;另一个方面考虑到部分查询者可能由于缺少足够的背景知识,而无法提供必要的元数据域查询,我们将为其匹配最相关的目标域限制,以提高检索结果的查准率。该方法在保证传统查询方式下高精度特点的同时,能够使检索结果的查全率得到进一步地提升。(5)细化了元数据的评估标准。从整个论文研究的出发点讲,论文全部研究工作的主要目的是为了有效地提高元数据的质量,使其能在具体应用领域发挥更大的作用。为此,本文选择了档案信息资源作为实验中的目标应用领域,而对于元数据最终质量的评估,作者考虑到并不能单纯从信息技术经典的评估指标查全率和查准率来体现,所以本文尝试了细化各项评估指标,对特征不同的评估对象,采用了分化的评估比较的办法,这样可以在更细致的层面上反映出不同方法在元数据质量上的影响。总之,本论文通过规则、统计、概率等方法分别从上述各个方面对元数据相关技术进行了深入研究。解决了元数据构建过程中的关键问题,提高了生成元数据的查准度和查全率;增强了对不同格式以及不断变化的元数据模式进行集成的适用能力;提高了用户主动查询的性能,在进一步提高查全率的同时,也提高了查准率,在这些工作中取得了一系列相关的研究成果。

全文目录


摘要  6-9
Abstract  9-16
1. 绪论  16-28
  1.1. 研究背景  16-17
  1.2. 问题提出  17-20
    1.2.1. 元数据构建现状  17-19
    1.2.2. 问题分析  19-20
  1.3. 档案信息资源  20-22
    1.3.1. 概述  20-21
    1.3.2. 网络环境下档案信息服务面临的问题  21-22
  1.4. 本文主要研究内容及创新点  22-26
    1.4.1. 主要研究内容  22-24
    1.4.2. 创新点  24-26
  1.5. 本文的组织结构  26-27
  1.6. 本章小结  27-28
2. 理论研究  28-44
  2.1. 元数据基础理论  28-36
    2.1.1. 元数据定义  28-29
    2.1.2. 元数据的存在形态  29-31
    2.1.3. 元数据分类  31-33
    2.1.4. 元数据在档案信息资源领域的作用  33-35
    2.1.5. 元数据与本体  35-36
  2.2. 相关研究内容概述  36-43
    2.2.1. 本体  36-38
    2.2.2. 信息抽取  38-40
    2.2.3. 模式匹配  40-42
    2.2.4. 信息检索  42-43
  2.3. 本章小结  43-44
3. 基于语义标注信息的元数据构建  44-74
  3.1. 引言  44-45
  3.2. 元数据构建方法  45-53
    3.2.1. 主要方法研究现状  45-48
    3.2.2. HMM  48-52
    3.2.3. 模板学习  52
    3.2.4. 问题分析  52-53
  3.3. SAMC元数据构建  53-66
    3.3.1. 语义标注  53-56
    3.3.2. SAMC方法的提出  56-66
  3.4. 实验测试结果评估及分析  66-73
    3.4.1. 实验设计  66-67
    3.4.2. 评估指标  67-69
    3.4.3. 实验结果及评估  69-73
  3.5. 本章小结  73-74
4. 支持异构元数据模式属性级语义集成的模式匹配  74-93
  4.1. 引言  74
  4.2. 模式匹配概述  74-77
    4.2.1. 主要方法介绍  74-76
    4.2.2. 问题分析  76-77
  4.3. PISMatching的提出  77-88
    4.3.1. 概述  77-78
    4.3.2. 基于Concept-Word生成应用元数据模式  78-84
    4.3.3. 关联概念联想的概念相似度计算  84-88
  4.4. 实验测试结果评估及分析  88-91
    4.4.1. 实验设计  88-89
    4.4.2. 评估指标  89
    4.4.3. 实验结果及评估  89-91
  4.5. 本章小结  91-93
5. 基于域上下文信息相关性度量的元数据查询  93-113
  5.1. 引言  93-94
  5.2. 相关研究  94-100
    5.2.1. 主要检索模型介绍  94-97
    5.2.2. 问题分析  97-100
  5.3. MFCQuery的提出  100-106
    5.3.1. 符号定义  100
    5.3.2. MFCQuery方法  100-106
  5.4. 实验测试结果评估及分析  106-111
    5.4.1. 实验设计  106-107
    5.4.2. 评估指标  107
    5.4.3. 实验结果及评估  107-111
  5.5. 本章小结  111-113
6. 总结与展望  113-118
  6.1. 本文总结  113-115
  6.2. 进一步的研究工作  115-117
  6.3. 本章小结  117-118
附录  118-124
  论文相关程序及代码  118-122
    元数据生成算法  118-119
    元数据模式生成算法  119-120
    元数据模式属性语义匹配算法  120
    用户查询格式化算法  120-122
  作者攻读博士学位期间的科研成果  122-123
  作者攻读博士学位期间参与的科研项目  123-124
参考文献  124-135
后记  135-136

相似论文

  1. 领域实体属性及事件抽取技术研究,TP391.1
  2. 时间表达式识别与归一化研究,TP391.1
  3. 生物医学领域检索系统查询扩展技术研究,TP391.3
  4. 面向海量邮件的检索系统研究与实现,TP393.098
  5. 基于元数据的农田信息存储、管理和共享研究,S126
  6. 分面元数据在网站检索系统中的应用研究,G354.2
  7. 面向高校重点课程的教参资源库建设的应用研究,G642.3
  8. 基于GIS的矿井水灾害地球物理信息管理系统研究,TD745
  9. C/S模式MIS软件可复用构件的研究与开发,TP311.52
  10. 基于跨语言信息检索的企业竞争情报收集系统模型研究,TP391.3
  11. 矿区多源遥感影像集成管理系统的设计与实现,P208
  12. Web环境下基于语义模式匹配的实体关系提取方法的研究,TP391.1
  13. 网页属性抽取的方法研究,TP391.1
  14. 基于AutoCAD的协同设计管理系统的研究,TP311.52
  15. DWMS中元数据以及缓冲区的设计和实现,TP311.13
  16. 数据空间下的索引策略研究,TP311.13
  17. 基于启发式算法的恶意代码检测系统研究与实现,TP393.08
  18. 基于PCIE接口混合存储系统的设计与实现,TP333
  19. 网络环境下的分布式存储系统的设计与实现,TP333
  20. 存储系统中多维元数据索引的高效更新方法研究,TP333
  21. 英文文本中命名实体识别及关系抽取技术研究,TP391.1

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 文字信息处理
© 2012 www.xueweilunwen.com