学位论文 > 优秀研究生学位论文题录展示

结合编辑距离和Google距离的语义标注方法研究

作 者: 艾东梅
导 师: 张玉芳
学 校: 重庆大学
专 业: 计算机系统结构
关键词: 语义Web 语义标注 本体 编辑距离 Google距离
分类号: TP391.1
类 型: 硕士论文
年 份: 2010年
下 载: 94次
引 用: 1次
阅 读: 论文下载
 

内容摘要


Web已经成为人类获取信息和得到服务主要方式之一,Internet技术的高速发展使它成为了一个庞大的知识库,但同时也带来了许多问题。首先,Web规模的膨胀使得整个Web上的有用信息无法得到有效的利用,人们在这海量的信息中获取“知识”的难度增大;其次,在当前Web中计算机的主要作用是显示信息,很少参与到信息的处理中,使得许多智能应用无法在Web上实现。语义Web便是在这种需求背景下产生的,旨在使Web文档具有机器可理解的语义,使不同平台中的数据得到共享和重用,便于人机之间进行交流和合作。这样,Web巨大的潜能才能得到充分发挥。这种机器可理解的语义信息,就是通过语义标注技术产生并添加到Web资源中的。语义标注是利用本体知识对网页中的概念或概念实例进行描述的。通过语义标注的作用, Web中的资源具有了语义,因此语义标注是实现语义Web的基础。本文首先介绍了语义Web相关知识背景,包括语义Web的起源、体系结构、本体知识等,阐述了语义标注的含义、它与本体之间的相互作用,以及在语义Web发展过程中的重要地位。然后,对当前存在的一些典型的语义标注系统进行深入分析和比较。针对这些标注系统的不足和缺陷,引入了语法和语义分析的思想,提出了一种结合编辑距离和Google距离的语义标注方法。该方法在领域本体的指导下,充分考虑了Web资源与本体在语法上的形似度和语义上的相关度,从这两方面综合度量两者之间的关联程度,从而用本体知识对资源进行有效的标注。其中,对标注结果还进行了分类处理:与本体关联程度高但在本体中尚无定义的实例,将其标注结果反馈到本体库中,对本体库进行扩充;与本体关联程度低的实例则反馈到词汇过滤表中,用于辅助对文档的预处理过程,这两个过程都是循环反馈的。其次,在对传统标注工具分析时发现这些工具几乎都无法直接标注word文档,为此,对word文档的特点分析后,将本文方法改进后直接标注word文档。最后,为了验证本文提出的语义标注方法的有效性,在葡萄酒领域设计和实现了语义标注实验。在实验中,分别针对Web文档和word文档进行了相应的测试。结果表明,本文提出的方法切实可行,标注性能良好,对领域文档的表达方式没有特别要求,并支持对word文档的语义标注,弥补了传统标注工具几乎无法直接标注以word文档表示的资源的不足之处。

全文目录


中文摘要  3-4
英文摘要  4-8
1 绪论  8-12
  1.1 研究背景和动机  8-9
  1.2 语义标注的研究现状  9-10
  1.3 论文的组织结构  10-12
2 语义 Web 和本体  12-20
  2.1 语义Web 简介  12-16
    2.1.1 语义Web 的起源和思想  12-13
    2.1.2 语义Web 的体系结构  13-16
  2.2 本体简介  16-19
    2.2.1 本体概述  16-17
    2.2.2 本体的分类  17-18
    2.2.3 本体语言OWL  18-19
  2.3 本章小结  19-20
3 语义标注  20-29
  3.1 语义标注概论  20-22
    3.1.1 语义标注含义  20-21
    3.1.2 语义标注与本体  21
    3.1.3 语义标注与语义Web  21-22
  3.2 传统语义标注系统  22-28
    3.2.1 典型的语义标注系统  23-26
    3.2.2 语义标注系统分析和比较  26-28
  3.3 本章小结  28-29
4 结合编辑距离和 Google 距离的语义标注方法  29-48
  4.1 标注思想  29-30
  4.2 标注过程  30-44
    4.2.1 网页抓取  30-31
    4.2.2 GATE 处理  31-32
    4.2.3 本体预处理  32-39
    4.2.4 实例识别  39-43
    4.2.5 生成标注结果  43-44
  4.3 Word 文档标注  44-47
  4.4 本章小结  47-48
5 实验与结果分析  48-58
  5.1 预处理  48-51
    5.1.1 领域文档预处理  48-49
    5.1.2 本体预处理  49-51
  5.2 语义标注  51-52
  5.3 Word 文档标注  52-53
  5.4 标注结果及分析  53-57
    5.4.1 评价标准  54
    5.4.2 结果分析  54-57
  5.5 本章小结  57-58
6 总结与展望  58-60
  6.1 总结  58-59
  6.2 下一步的工作  59-60
致谢  60-61
参考文献  61-64
附录  64
  A 作者在攻读硕士学位期间发表的论文目录  64
  B 作者在攻读硕士学位期间参与的科研项目  64

相似论文

  1. 哲学思想在指导中学数学教学中的作用,G633.6
  2. 面向业务过程的服务动态组合方法研究,TP393.09
  3. 基于本体的语义检索研究,TP391.3
  4. 不同人群本体感觉差异性比较及脑机制研究,B845
  5. 卢卡奇《关于社会存在本体论》中的劳动范畴,B515
  6. 基于分布式描述逻辑的本体模块化构建方法研究,TP391.1
  7. 一种基于领域本体的语义Web服务匹配和组合方法,TP393.09
  8. WordNet和《中国分类主题词表》的映射研究,G254
  9. 拉图尔的行动者网络理论研究,N02
  10. 基于跨语言信息检索的企业竞争情报收集系统模型研究,TP391.3
  11. 220kV输电线路除冰机器人机械本体研究,TP242
  12. 基于本体的食品投诉文档文本聚类研究,TP391.1
  13. 关系数据库到RDF(S)映射方法的研究,TP311.13
  14. 基于语义的Web服务发现研究,TP393.09
  15. 本体在智能小区中的应用研究,TP391.1
  16. 基于领域本体的海洋环境数据仓库设计,TP311.13
  17. 数据空间中数据资源之间关联关系发现模型研究,TP311.13
  18. 近似字符串匹配研究及其在URL检测中的应用,TP393.08
  19. 普适计算下智能空间的哲学探究,N02
  20. 基于SNS的教育视频细粒度标注研究与实现,TP391.6
  21. 企业级软件组件质量保障与快速部团策略的研究,TP311.53

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 文字信息处理
© 2012 www.xueweilunwen.com