学位论文 > 优秀研究生学位论文题录展示
结合编辑距离和Google距离的语义标注方法研究
作 者: 艾东梅
导 师: 张玉芳
学 校: 重庆大学
专 业: 计算机系统结构
关键词: 语义Web 语义标注 本体 编辑距离 Google距离
分类号: TP391.1
类 型: 硕士论文
年 份: 2010年
下 载: 94次
引 用: 1次
阅 读: 论文下载
内容摘要
Web已经成为人类获取信息和得到服务主要方式之一,Internet技术的高速发展使它成为了一个庞大的知识库,但同时也带来了许多问题。首先,Web规模的膨胀使得整个Web上的有用信息无法得到有效的利用,人们在这海量的信息中获取“知识”的难度增大;其次,在当前Web中计算机的主要作用是显示信息,很少参与到信息的处理中,使得许多智能应用无法在Web上实现。语义Web便是在这种需求背景下产生的,旨在使Web文档具有机器可理解的语义,使不同平台中的数据得到共享和重用,便于人机之间进行交流和合作。这样,Web巨大的潜能才能得到充分发挥。这种机器可理解的语义信息,就是通过语义标注技术产生并添加到Web资源中的。语义标注是利用本体知识对网页中的概念或概念实例进行描述的。通过语义标注的作用, Web中的资源具有了语义,因此语义标注是实现语义Web的基础。本文首先介绍了语义Web相关知识背景,包括语义Web的起源、体系结构、本体知识等,阐述了语义标注的含义、它与本体之间的相互作用,以及在语义Web发展过程中的重要地位。然后,对当前存在的一些典型的语义标注系统进行深入分析和比较。针对这些标注系统的不足和缺陷,引入了语法和语义分析的思想,提出了一种结合编辑距离和Google距离的语义标注方法。该方法在领域本体的指导下,充分考虑了Web资源与本体在语法上的形似度和语义上的相关度,从这两方面综合度量两者之间的关联程度,从而用本体知识对资源进行有效的标注。其中,对标注结果还进行了分类处理:与本体关联程度高但在本体中尚无定义的实例,将其标注结果反馈到本体库中,对本体库进行扩充;与本体关联程度低的实例则反馈到词汇过滤表中,用于辅助对文档的预处理过程,这两个过程都是循环反馈的。其次,在对传统标注工具分析时发现这些工具几乎都无法直接标注word文档,为此,对word文档的特点分析后,将本文方法改进后直接标注word文档。最后,为了验证本文提出的语义标注方法的有效性,在葡萄酒领域设计和实现了语义标注实验。在实验中,分别针对Web文档和word文档进行了相应的测试。结果表明,本文提出的方法切实可行,标注性能良好,对领域文档的表达方式没有特别要求,并支持对word文档的语义标注,弥补了传统标注工具几乎无法直接标注以word文档表示的资源的不足之处。
|
全文目录
中文摘要 3-4 英文摘要 4-8 1 绪论 8-12 1.1 研究背景和动机 8-9 1.2 语义标注的研究现状 9-10 1.3 论文的组织结构 10-12 2 语义 Web 和本体 12-20 2.1 语义Web 简介 12-16 2.1.1 语义Web 的起源和思想 12-13 2.1.2 语义Web 的体系结构 13-16 2.2 本体简介 16-19 2.2.1 本体概述 16-17 2.2.2 本体的分类 17-18 2.2.3 本体语言OWL 18-19 2.3 本章小结 19-20 3 语义标注 20-29 3.1 语义标注概论 20-22 3.1.1 语义标注含义 20-21 3.1.2 语义标注与本体 21 3.1.3 语义标注与语义Web 21-22 3.2 传统语义标注系统 22-28 3.2.1 典型的语义标注系统 23-26 3.2.2 语义标注系统分析和比较 26-28 3.3 本章小结 28-29 4 结合编辑距离和 Google 距离的语义标注方法 29-48 4.1 标注思想 29-30 4.2 标注过程 30-44 4.2.1 网页抓取 30-31 4.2.2 GATE 处理 31-32 4.2.3 本体预处理 32-39 4.2.4 实例识别 39-43 4.2.5 生成标注结果 43-44 4.3 Word 文档标注 44-47 4.4 本章小结 47-48 5 实验与结果分析 48-58 5.1 预处理 48-51 5.1.1 领域文档预处理 48-49 5.1.2 本体预处理 49-51 5.2 语义标注 51-52 5.3 Word 文档标注 52-53 5.4 标注结果及分析 53-57 5.4.1 评价标准 54 5.4.2 结果分析 54-57 5.5 本章小结 57-58 6 总结与展望 58-60 6.1 总结 58-59 6.2 下一步的工作 59-60 致谢 60-61 参考文献 61-64 附录 64 A 作者在攻读硕士学位期间发表的论文目录 64 B 作者在攻读硕士学位期间参与的科研项目 64
|
相似论文
- 哲学思想在指导中学数学教学中的作用,G633.6
- 面向业务过程的服务动态组合方法研究,TP393.09
- 基于本体的语义检索研究,TP391.3
- 不同人群本体感觉差异性比较及脑机制研究,B845
- 卢卡奇《关于社会存在本体论》中的劳动范畴,B515
- 基于分布式描述逻辑的本体模块化构建方法研究,TP391.1
- 一种基于领域本体的语义Web服务匹配和组合方法,TP393.09
- WordNet和《中国分类主题词表》的映射研究,G254
- 拉图尔的行动者网络理论研究,N02
- 基于跨语言信息检索的企业竞争情报收集系统模型研究,TP391.3
- 220kV输电线路除冰机器人机械本体研究,TP242
- 基于本体的食品投诉文档文本聚类研究,TP391.1
- 关系数据库到RDF(S)映射方法的研究,TP311.13
- 基于语义的Web服务发现研究,TP393.09
- 本体在智能小区中的应用研究,TP391.1
- 基于领域本体的海洋环境数据仓库设计,TP311.13
- 数据空间中数据资源之间关联关系发现模型研究,TP311.13
- 近似字符串匹配研究及其在URL检测中的应用,TP393.08
- 普适计算下智能空间的哲学探究,N02
- 基于SNS的教育视频细粒度标注研究与实现,TP391.6
- 企业级软件组件质量保障与快速部团策略的研究,TP311.53
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 文字信息处理
© 2012 www.xueweilunwen.com
|