学位论文 > 优秀研究生学位论文题录展示
基于分层需求的领域本体构建及语义标注方法研究
作 者: 张卓
导 师: 刘畅
学 校: 东北财经大学
专 业: 企业管理
关键词: 领域本体 语义标注 关系抽取 构建方法
分类号: TP391.1
类 型: 硕士论文
年 份: 2010年
下 载: 99次
引 用: 0次
阅 读: 论文下载
内容摘要
在网络信息时代,信息的来源更依赖于Internet这个信息资源库,亿万网页构成的资源库对信息处理能力提出了更高的要求。自然语言信息只能由人理解越来越成为信息发展的瓶颈,也导致了信息膨胀和用户信息不足的矛盾。语义网(Semantic Web)是万维网的扩展和延伸,是实现自动化信息处理的重要的技术。语义网的广泛应用依赖于本体构建技术及语义标注技术的发展。本体是一种能在语义层上描述信息系统概念模型的建模工具,能够提供对领域知识的共同理解,搭建领域概念的框架体系,并用形式化的方式表达出来。在构建智能化的检索系统、构建语义web、信息抽取、知识工程和知识管理等领域都有重要的应用。目前,伴随着本体应用的领域和范围的不断加深,出现了很多领域本体,然而领域本体的构建方法依然存在缺少标准、不规范和缺乏工程化思想等缺陷。语义标注是在已构建好的本体的指导下向信息中添加规范化知识的过程,也就是利用已经定义好的概念和实例对文档中的信息进行标记,从而实现对文档中信息的理解。目前的语义标注方法多采用传统的基于规则的方式和基于自然语言的方式,不能适应大规模语义标注的需要。本文在分析领域分层特征的基础上,提出了基于领域分层的需求分析方法,它不受特定领域的限制,根据领域的层次逐层进行分解,弥补了以往领域本体构建方法存在的不足之处,为实现领域本体构建的工程化和规范化提供了一种思路。在领域分层的需求分析方法的基础上,本文借鉴已有的领域本体构建方法,基于软件工程理论,提出基于领域层次需求分析的本体构建方法。该方法把领域构建过程分为需求分析、本体设计、本体编码、检验评估四个阶段,每个阶段都有相应的成果报告并形成文档,易于维护和扩展,更符合工程化开发的要求,适合于多人的协作开发。利用提出的领域本体构建方法,本文使用开发工具protege开发了能源经济领域本体,验证所提出的方法的可行性和有效性。进一步,本文对当前的语义标注方法从自动化程度和语义标注方式两个维度进行了总结与划分。然后,本文给出了基于领域本体的自动语义标注方法,该方法把语义标注分为两个阶段:实体识别阶段和关系抽取阶段。前一个阶段使用歧义消除方法来消除相同的概念处于不同的本体中所产生的歧义;后一阶段采用了基于领域本体的语义关系抽取方法,综合利用领域本体的三元组结构和类属性的数值类型等特征。并通过实验明了本文提出的语义标注方法的有效性。
|
全文目录
摘要 2-4 ABSTRACT 4-8 第一章 绪论 8-15 1.1 研究背景和意义 8-10 1.2 国内外研究现状 10-13 1.2.1 领域本体构建方法的研究现状 10-12 1.2.2 语义标注方法的研究现状 12-13 1.3 研究内容和论文的组织结构 13-15 第二章 领域本体和语义标注的理论基础 15-24 2.1 本体理论 15-17 2.1.1 本体与领域本体的基本概念 15 2.1.2 本体的分类 15-16 2.1.3 领域本体描述语言 16-17 2.1.4 本体构建工具 17 2.2 领域本体构建的理论 17-18 2.3 语义标注理论 18-24 2.3.1 语义标注的基本概念 18-19 2.3.2 语义标注方法的分类研究 19-22 2.3.3 语义标注的关键技术 22-24 第三章 基于需求分析的领域本体构建方法 24-37 3.1 领域的分层特征 24-25 3.2 分层次的领域需求分析 25-27 3.2.1 分层次的领域需求分析的基本思想 25-26 3.2.2 分层次的领域需求分析的优势 26-27 3.3 基于需求的本体构建方法 27-29 3.3.1 需求分析阶段 27 3.3.2 本体设计阶段 27-28 3.3.3 本体编码阶段 28 3.3.4 检验与评估阶段 28-29 3.4 能源经济的本体构建 29-37 3.4.1 能源经济本体构建的需求分析 29 3.4.2 领域本体构建工具 29-30 3.4.3 能源经济领域结构 30-32 3.4.4 节能减排子领域结构 32-33 3.4.5 能源安全子领域结构 33-37 第四章 基于领域本体的语义标注方法 37-48 4.1 基于领域本体的语义标注方法 37-40 4.2 Web文档的预处理 40-42 4.2.1 Web文档内容提取 40-41 4.2.2 中文分词处理 41-42 4.3 实体的识别阶段 42-45 4.4 基于领域本体的关系抽取方法 45-48 4.4.1 基于领域本体的关系抽取基本思想 45 4.4.2 基于领域本体的关系抽取算法描述 45-48 第五章 实验与结论 48-54 5.1 数据准备和实验环境 48-49 5.2 歧义词判别的结果分析 49-51 5.3 实体识别和关系抽取结果分析 51-54 5.3.1 评价指标 51-52 5.3.2 结果分析 52-54 第六章 总结与展望 54-56 6.1 总结 54 6.2 不足与进一步研究展望 54-56 附录 56-61 参考文献 61-66 后记 66-67
|
相似论文
- 一种基于领域本体的语义Web服务匹配和组合方法,TP393.09
- 基于领域本体的海洋环境数据仓库设计,TP311.13
- 英文文本中命名实体识别及关系抽取技术研究,TP391.1
- 基于SNS的教育视频细粒度标注研究与实现,TP391.6
- 基于CRF的命名实体和关系的联合抽取,TP391.4
- 基于自学习的社会关系抽取的研究,TP391.1
- 图像语义标注中的块—全局特征提取方法研究,TP391.41
- 人体运动序列数据的语义化分析方法研究,TP391.1
- 基于丰富特征和多核学习的蛋白质关系抽取,Q51
- 面向概念查询的生物医学多文档摘要技术研究,TP391.1
- 结合WordNet的领域语义标注研究,TP391.1
- Deep Web数据抽取及语义标注研究,TP393.09
- 基于最大熵模型的中文实体关系自动抽取研究,TP391.1
- 基于CPN网络的Deep Web集成系统中结果模式语义标注方法,TP393.09
- 基于SVM的视频语义提取和相关反馈的研究,TP391.3
- 一种基于语义标注的个性化搜索技术的研究与实现,TP391.3
- “鸟巢”赛后运营效益评价体系构建,G80-05
- 城市绿色网络理论与构建研究,TU985
- 基于领域本体的Deep Web数据源聚焦技术研究,TP393.09
- 领域自适应的中文实体关系抽取研究,TP391.1
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 文字信息处理
© 2012 www.xueweilunwen.com
|