学位论文 > 优秀研究生学位论文题录展示

领域本体覆盖度评价关键技术研究

作 者: 欧阳柳波
导 师: 邹北骥
学 校: 中南大学
专 业: 计算机应用技术
关键词: 领域本体 本体评价 覆盖度 概念抽取 关系抽取 领域相关性
分类号: TP391.1
类 型: 博士论文
年 份: 2012年
下 载: 94次
引 用: 0次
阅 读: 论文下载
 

内容摘要


领域本体作为一种能在语义和知识层次上描述信息的概念模型,在智能信息检索、知识获取、自然语言理解和Web信息处理等方面发挥着重要的作用。然而由于领域本体构建原则的不确定性、构建方法的不一致性、构建工具的多样性和构建人员的领域知识水平差异性等因素,导致目前虽然领域本体数量众多,但是质量却参差不齐。同时随着领域新知识和新应用不断涌现,为了能使领域本体及时覆盖领域新知识,领域本体也在不断进行学习和进化。如何对领域本体内容进行有效的质量评价是本体应用中非常重要和紧迫的课题。领域本体覆盖度是领域本体内容评价的重要评价指标之一,分为概念覆盖度和关系覆盖度,它反映本体中包含某个领域中的概念和关系的全面程度,用于判定本体与某个领域的相关性。概念和关系的覆盖度评价结果可以为领域本体学习和进化需求的获取提供可靠的依据,可以为用户选择和重用领域本体提供有益的参考。基于黄金标准的评价方法进行覆盖度度量是一种理想的有效手段,然而绝对的黄金标准并不存在,本文认为从大规模领域语料库中抽取领域概念集和领域关系集作为相对黄金标准是一种现实可行的方法,因此采用获取相对黄金标准的思路进行领域本体覆盖度评价相关技术研究。主要有以下工作:(1)分析了领域本体内容评价指标与度量方法,从广度(Breadth)、深度(Depth)、横向(Horizon)、纵向(Longitude)四个视角对本体内容评价指标进行分类和融合,构建一种领域本体内容评价体系框架BDHL,设计可以用户个性化定制的可扩展评价指标树结构,分析结果表明覆盖度评价指标是进行其他指标评价的基础,并在此基础上给出领域本体内容评价过程模型。(2)在概念覆盖度评价中,作为黄金标准的领域概念集的完备性非常重要,但多重复合概念识别问题制约覆盖度的度量准确性。本文提出一种基于混合判定模型的复合概念抽取方法,首先对语料库中的领域文本进行分词处理,为每个词条添加词条标签,并对词条集进行噪音词消除和同义词合并处理,然后通过加权词频、位置亲和度和位置匹配度计算,判定和筛选可组合成复合概念的原子词条,最后通过设置不同复合深度值,实现多重复合概念抽取。以软件工程领域的文档集构建语料库进行抽取实验,对比实验结果表明了该方法的有效性。(3)提出一种基于统计和依存语法分析相结合的领域关系实例抽取方法,在领域语料库标注和领域概念集较完备的前提下,可有效判定领域概念之间存在关系,并获得具体关系实例三元组。首先通过位置亲和度、支持度和置信度判定存在关系的领域概念对,通过统计决策树模型判定句子的谓语中心词,然后根据依存关系规则库,对句子进行句法分析,得到该句子的依存关系树,判断领域概念对是否受谓语中心词支配,最后根据领域概念对的依存关系,抽取出满足<主谓宾>结构的领域概念对和谓语中心词,得到领域概念对的关系三元组。同样以软件工程领域的语料库和领域概念集为实验对象,验证了本文方法对简单句中关系实例抽取具有较好的召回率和准确率。(4)应用上述研究成果,从软件工程领域语料库中获取领域概念集和关系集,作为相对黄金标准;同时获取软件工程领域中多个本体的本体概念集和本体关系集;设计基于相对黄金标准的领域本体概念覆盖度和关系覆盖度评价算法,得到概念覆盖度和关系覆盖度评价结果,将两方面评价结果用于本体的领域相关性和领域交叉性分析。实验结果表明本文方法能较好地根据覆盖度评价值反映领域本体与领域之间的关系。在领域概念和领域关系抽取中,如何选择领域语料库,如何处理复杂语境下的抽取问题,还需要进一步的研究。在领域本体覆盖度评价的基础上,对本体进行领域相关性排序和领域交叉性分析,开展本体内容质量其他相关指标,如内聚度、耦合度等方面的评价方法研究与应用,也将在下一步进行深入研究。

全文目录


摘要  4-6
ABSTRACT  6-12
插图索引  12-14
附表索引  14-15
术语中英对照表  15-17
符号说明表  17-18
第一章 绪论  18-35
  1.1 研究背景与意义  18-19
  1.2 国内外研究现状  19-32
    1.2.1 领域本体评价相关研究  19-24
    1.2.2 领域本体覆盖度分析  24-25
    1.2.3 领域概念抽取  25-29
    1.2.4 领域关系抽取  29-32
  1.3 主要研究内容  32-33
  1.4 论文组织结构  33-35
第二章 领域本体内容评价指标体系  35-49
  2.1 概述  35-36
  2.2 可扩展的领域本体内容评价体系  36-45
    2.2.1 评价体系BDHL框架  36-37
    2.2.2 可扩展的评价指标树  37-38
    2.3.3 指标度量方法  38-45
  2.3 本体内容评价过程模型  45-46
  2.4 覆盖度重要性分析  46-48
    2.4.1 概念覆盖度与其它指标关系分析  47
    2.4.2 关系覆盖度与其它指标关系分析  47-48
  2.5 本章小结  48-49
第三章 基于文本的领域概念抽取方法  49-72
  3.1 概述  49-54
    3.1.1 领域概念的含义  50-52
    3.1.2 复合概念分析  52-53
    3.1.3 领域概念抽取方法  53-54
    3.1.4 存在问题  54
  3.2 相关定义  54-56
  3.3 领域概念抽取框架  56-59
  3.4 抽取算法  59-63
    3.4.1 词条标签算法  60-61
    3.4.2 加权词频算法  61
    3.4.3 位置亲和度算法  61-62
    3.4.4 位置匹配度算法  62-63
  3.5 实例分析  63-66
  3.6 实验设计与结果分析  66-70
    3.6.1 实验设计  66-67
    3.6.2 实验结果  67-70
    3.6.3 算法时间复杂度比较  70
  3.7 本章小结  70-72
第四章 基于文本的领域关系抽取方法  72-92
  4.1 概述  72-75
    4.1.1 领域本体中关系分类体系  72-74
    4.1.2 关系抽取的主要任务  74-75
  4.2 领域关系抽取  75-81
    4.2.1 领域关系抽取流程  75-76
    4.2.2 领域概念对的获取  76-77
    4.2.3 领域概念对的关系判定  77-78
    4.2.4 谓语中心词的抽取  78-79
    4.2.5 句子成分分析  79-80
    4.2.6 主谓宾关系抽取算法  80-81
  4.3 领域概念分类关系抽取  81-84
    4.3.1 分类关系抽取的流程  82
    4.3.2 基于规则匹配的关系抽取算法  82-83
    4.3.3 抽取出的部分规则展示及说明  83-84
  4.4 实验与分析  84-91
    4.4.1 具有关系的领域概念对展示  84
    4.4.2 依存关系的标注展示  84-85
    4.4.3 关系三元组展示  85-86
    4.4.4 分类关系抽取结果  86-87
    4.4.5 实验结果分析  87-89
    4.4.6 错误分析  89-91
  4.5 本章小结  91-92
第五章 领域本体覆盖度评价方法  92-125
  5.1 概述  92
  5.2 领域相关性与交叉性分析  92-100
    5.2.1 领域相关性分析  92-94
    5.2.2 领域交叉性分析  94-100
  5.3 概念覆盖度评价  100-116
    5.3.1 概念覆盖度度量模型  100-104
    5.3.2 本体概念集抽取  104
    5.3.3 概念覆盖度度量算法  104-107
    5.3.4 实验与分析  107-116
  5.4 关系覆盖度评价  116-124
    5.4.1 关系覆盖度分析  116-117
    5.4.2 本体关系集抽取  117-118
    5.4.3 映射词典  118-119
    5.4.4 关系覆盖度度量  119-120
    5.4.5 实验与分析  120-124
  5.5 本章小结  124-125
第六章 结论  125-128
  6.1 工作总结  125-126
  6.2 下一步研究工作  126-128
参考文献  128-140
致谢  140-141
攻读博士学位期间主要研究成果  141-142

相似论文

  1. 一种基于领域本体的语义Web服务匹配和组合方法,TP393.09
  2. 三江源区植被覆盖度的定量估算与动态变化研究,TP79
  3. 基于光谱指数的喀斯特石漠化地物覆盖度信息提取研究,P237
  4. 基于领域本体的专利地图研究,TP391.1
  5. 基于本体的食品投诉文档文本分类研究,TP391.1
  6. Voronoi图的性质及其在无线传感器网络中的应用,TP212.9
  7. 蛋白质关系抽取中平面特征和结构化信息的研究,TP181
  8. 基于领域本体的海洋环境数据仓库设计,TP311.13
  9. 数据空间中数据资源之间关联关系发现模型研究,TP311.13
  10. 英文文本中命名实体识别及关系抽取技术研究,TP391.1
  11. 基于特征向量的实体间语义关系抽取研究,TP391.1
  12. 基于CRF的命名实体和关系的联合抽取,TP391.4
  13. 基于自学习的社会关系抽取的研究,TP391.1
  14. 基于丰富特征和多核学习的蛋白质关系抽取,Q51
  15. 基于多代理策略的中文实体关系抽取,TP391.1
  16. 基于需求群组的Web服务调度模型研究,TP393.09
  17. 面向学科的文献资源聚类系统研究及应用,TP391.1
  18. 基于本体的服装领域知识表示的建模研究,TS941.1
  19. 基于领域本体的网络产品检索引擎的研究与实现,TP391.3
  20. 基于分层需求的领域本体构建及语义标注方法研究,TP391.1
  21. 业务服务的语义描述及标注技术研究,TP311.52

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 文字信息处理
© 2012 www.xueweilunwen.com