学位论文 > 优秀研究生学位论文题录展示
基于领域本体的Web信息抽取技术研究
作 者: 程文涛
导 师: 师雪霖
学 校: 北京化工大学
专 业: 计算机应用技术
关键词: Web信息抽取 本体 语义 抽取规则 资源描述框架
分类号: TP391.1
类 型: 硕士论文
年 份: 2011年
下 载: 60次
引 用: 0次
阅 读: 论文下载
内容摘要
Web信息抽取技术是在计算机不断普及和互联网迅速发展的背景下产生的。面对网络中海量、半结构化的Web文本资源,Web信息抽取技术致力于从中提取特定的信息,并将其转化为含义明确的结构化数据,在一定程度上满足了人们对网络中数据资源进一步整合与共享的需要。近些年来,本体理论的发展为Web信息抽取的研究提供了新的途径。许多研究者对本体在Web抽取过程中的应用进行了深入探讨,力图通过使用本体来进一步改善Web信息抽取的效果。本文通过对信息抽取技术的特点及现有成果进行分析比较,借鉴本体领域中的相关理论,对基于领域本体的Web信息抽取技术进行了研究,着重作了以下几方面的具体工作:(1)分析了本体领域中的相关理论和应用,针对网页中事物描述信息的特点,提出了抽取指向型本体的概念及建立方法。将本体概念属性划分不同的类型,并为本体属性添加属性定位信息映射模型,使其能够识别和定位网页中的事物描述信息。(2)提出了基于领域本体的Web信息抽取系统(OBWIES)框架。采用模块化设计思路,通过分别构建各个具体的功能模块来完成系统的总体功能,并对系统架构的具体实现进行了讨论。(3)提出了系统所使用的核心方法,即以本体为指导的Web信息抽取方法(OGWIE)。在规则生成阶段通过引入抽取指向型本体的属性定位信息作为指导,结合网页结构树路径分析算法对包含语义信息的网页核心信息块进行定位,进而生成抽取规则;在信息抽取阶段参照路径式抽取规则执行数据抽取;最后将抽取结果转化为RDF本体知识进行存储,提高了抽取信息的可重用性。(4)以网络中针对图书和车辆的站点作为数据源,从中选取若干网页作为测试用例,对原型系统的抽取性能进行了对比实验。实验结果表明,本系统具有较高的准确率;与无规则抽取方法相比,本系统具有更高的抽取效率。
|
全文目录
摘要 4-6 ABSTRACT 6-15 第一章 绪论 15-19 1.1 信息抽取技术背景及研究意义 15-16 1.2 相关的研究成果 16-17 1.3 本文的研究内容 17-18 1.4 本文的组织结构 18-19 第二章 信息抽取技术概述 19-27 2.1 信息抽取系统的框架结构 19-20 2.2 信息抽取技术的发展历史 20-21 2.3 信息抽取的主要任务 21-23 2.3.1 名称实体识别 21-22 2.3.2 语句结构分析 22 2.3.3 篇章级别分析 22-23 2.3.4 知识获取 23 2.4 信息抽取技术的评估标准 23-24 2.5 Web信息抽取技术分析比较 24-26 2.6 小结 26-27 第三章 本体模型的构建 27-45 3.1 资源描述框架(RDF) 27-29 3.1.1 RDF介绍 27-28 3.1.2 RDFS介绍 28-29 3.2 本体(Ontology)相关知识 29-31 3.2.1 本体的提出 29 3.2.2 本体的描述语言 29-31 3.3 抽取指向型本体模型的构建 31-43 3.3.1 网页中的事物描述型信息 31-33 3.3.2 抽取指向型本体模型的构建过程 33-38 3.3.3 抽取指向型本体的生成 38-43 3.4 小结 43-45 第四章 OBWIES系统架构设计 45-57 4.1 基于本体的信息抽取技术(OBIE) 45-49 4.1.1 OBIE技术的产生 45 4.1.2 OBIE技术的基本特点 45-46 4.1.3 OBIE系统的定义 46-47 4.1.4 OBIE系统的通用框架 47-49 4.2 基于领域本体的Web信息抽取系统框架结构 49-53 4.2.1 系统框架概览 49-50 4.2.2 网页抓取部分 50-52 4.2.3 规则制定部分 52-53 4.2.4 信息抽取部分 53 4.3 系统架构的实现 53-54 4.4 小结 54-57 第五章 以本体为指导的Web信息抽取方法原理及实现 57-73 5.1 以本体为指导的Web信息抽取方法概述 57-58 5.2 抽取规则的生成 58-66 5.2.1 解析样本页面 58-60 5.2.2 装入抽取指向型本体信息 60-61 5.2.3 筛选本体知识相关记录信息 61-62 5.2.4 对前导信息节点进行分块 62-63 5.2.5 对信息节点块进行筛选 63 5.2.6 定位可选属性前导信息 63-64 5.2.7 定位属性记录值 64-65 5.2.8 生成抽取规则 65-66 5.3 网页信息的抽取与本体知识的生成 66-69 5.3.1 网页信息的抽取 66-68 5.3.2 本体知识的生成 68-69 5.4 抽取性能实验 69-71 5.4.1 抽取准确性评价 69-71 5.4.2 抽取效率评价 71 5.5 小结 71-73 第六章 结束语 73-75 6.1 研究工作总结 73 6.2 进一步的工作 73-75 参考文献 75-79 致谢 79-81 研究成果及发表的学术论文 81-83 作者简介 83-84 附录 84-85
|
相似论文
- 《左传》名词陈述化研究,H146
- 基于多示例学习的用户关注概念区域发现,TP391.41
- 哲学思想在指导中学数学教学中的作用,G633.6
- 面向业务过程的服务动态组合方法研究,TP393.09
- 基于本体的语义检索研究,TP391.3
- 乔治·米勒的认知意义论,B842.1
- 不同人群本体感觉差异性比较及脑机制研究,B845
- 卢卡奇《关于社会存在本体论》中的劳动范畴,B515
- 基于分布式描述逻辑的本体模块化构建方法研究,TP391.1
- 一种基于领域本体的语义Web服务匹配和组合方法,TP393.09
- WordNet和《中国分类主题词表》的映射研究,G254
- 拉图尔的行动者网络理论研究,N02
- 心智游移频率特征研究:问卷开发,B841
- 基于跨语言信息检索的企业竞争情报收集系统模型研究,TP391.3
- 基于语义网络的智能搜索引擎研究,TP391.3
- 汉语框架自动识别中的歧义消解,TP391.1
- 220kV输电线路除冰机器人机械本体研究,TP242
- 《摩诃僧祗律》范围副词研究,H141
- “二拍”述补结构研究,H141
- 汉语中羡余类形式研究综述,H146
- 范畴化理论在大学英语词汇教学中的应用研究,H319
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 文字信息处理
© 2012 www.xueweilunwen.com
|