学位论文 > 优秀研究生学位论文题录展示

基于结果模式的Deep Web语义标注研究

作 者: 李秀兰
导 师: 李明
学 校: 兰州理工大学
专 业: 计算机软件与理论
关键词: Deep Web 语义标注 接口模式 结果模式 启发式信息 数据标注 数据抽取
分类号: TP391.1
类 型: 硕士论文
年 份: 2011年
下 载: 29次
引 用: 0次
阅 读: 论文下载
 

内容摘要


随着Internet技术的飞速发展和网络中所含信息规模的不断扩大,存在越来越多以Web查询接口形式进行访问的Deep Web (简称Web数据库或WDB)资源。而信息检索作为互联网应用的重要组成部分,在网络环境下,随着对信息检索研究的不断深入,研究Deep Web数据集成系统受到越来越多的研究者的密切关注。通过最近的研究发现, Deep Web蕴含了大量有价值的数据信息,这些数据资源与市场的需求密切相关,为了能自动的、有效的获取Deep Web背后众多Web数据库信息资源,需要进行大量的WDB数据集成。WDB页面大多是带模板的结构化HTML文档,而HTML语言的特点是在Web上人们可以随意发布内容多种多样,形式不同的内容,这样使得Web上的内容处于杂乱无序的状态,对建立Web数据库集成系统造成了很大的困难。语义标注作为Deep Web数据集成系统中查询结果处理模块中一个非常重要的组成部分,它的主要工作是指对抽取出的Deep Web查询结果数据添加正确的语义信息,使这些数据具有更高的使用价值,同时能被计算机识别和处理。本文首先介绍了研究Deep Web的研究背景和相关知识;其次,对模式获取技术和Deep Web数据标注技术进行了深入的研究,并提出了相应的方法和模型结构图;最后,使用结果模式信息对WDB数据进行有效标注,其主要研究工作包括:1.针对Deep Web结果模式结构信息的丢失问题,提出了一种基于启发式信息的Deep Web结果模式获取方法。通过解析Deep Web结果页面数据,利用启发式信息为结果页面数据添加正确的属性名,进而得到对应Deep Web的结果模式,并对其进行规范化处理解决不同数据源结果模式的结构不一致问题。实验验证该方法可以有效地获取Deep Web的结果模式信息。2.通过对比不同的WDB语义标注方法的优缺点,针对已有的标注方法还不能较好的解决Deep Web查询结果数据的标注问题,提出一种基于结果模式的Deep Web数据标注方法。通过结果页面解析和抽取结构化数据来完成数据预处理的工作,并在集成结果模式和待标注数据之间建立正确的语义映射,进而确定Deep Web数据的标注信息。实验结果表明,该标注方法对查询结果数据具有较好的标注效果。

全文目录


摘要  7-8
Abstract  8-10
插图索引  10-11
附表索引  11-12
第1章 绪论  12-19
  1.1 研究背景和意义  12-13
  1.2 Deep Web 的规模与分布  13-14
  1.3 国内外研究现状  14-15
  1.4 Deep Web 语义标注的研究现状  15-17
  1.5 本文的主要工作  17
  1.6 本文的内容结构安排  17-19
第2章 Deep Web 的相关知识  19-34
  2.1 Deep Web 简介  19-21
    2.1.1 Deep Web 的定义  19-20
    2.1.2 Deep Web 数据的结构化特性  20-21
  2.2 Deep Web 数据集成的研究框架  21-24
    2.2.1 集成查询接口生成模块  21-22
    2.2.2 查询处理模块  22
    2.2.3 查询结果处理模块  22-24
  2.3 抽取Deep Web 接口模式结果模式  24-33
    2.3.1 Deep Web 模式的定义  25-27
    2.3.2 Deep Web 模式的视觉特征  27-29
    2.3.3 Deep Web 模式的抽取  29-33
  2.4 本章小结  33-34
第3章 基于启发式信息的Deep Web 结果模式获取方法  34-43
  3.1 获取结果模式的研究现状  34
  3.2 结果模式的相关定义  34-35
  3.3 Deep Web 结果模式获取过程  35-40
    3.3.1 结果页面解析  35-38
    3.3.2 基于启发式信息的属性标注  38-39
    3.3.3 规范化处理结果模式  39-40
  3.4 实验与结果分析  40-42
  3.5 本章小结  42-43
第4章 一种基于结果模式的Deep Web 数据标注方法  43-51
  4.1 WDB 数据标注的研究现状  43
  4.2 分析结果模式  43-45
  4.3 基于结果模式的数据标注  45-49
    4.3.1 数据预处理  45-47
    4.3.2 数据标注  47-49
  4.4 实验与结果分析  49-50
  4.5 本章小结  50-51
总结与展望  51-53
  1 本文总结  51
  2 今后工作展望  51-53
参考文献  53-58
致谢  58-59
附录A 攻读硕士学位期间所发表的学术论文  59

相似论文

  1. 基于SNS的教育视频细粒度标注研究与实现,TP391.6
  2. 图像语义标注中的块—全局特征提取方法研究,TP391.41
  3. 人体运动序列数据的语义化分析方法研究,TP391.1
  4. Deep Web集成系统中同类主题数据源选择方法研究,TP311.13
  5. 结合WordNet的领域语义标注研究,TP391.1
  6. Deep Web数据清洗方法研究及应用,TP393.09
  7. Deep Web查询接口集成及搜索策略研究,TP393.09
  8. 基于领域知识的Deep Web接口发现研究,TP393.09
  9. Deep Web数据集成系统中数据标注研究,TP393.09
  10. Deep Web数据抽取及语义标注研究,TP393.09
  11. Deep Web数据库的选择研究,TP311.13
  12. 数据资源汇聚的可视化建模技术研究与应用,TP311.52
  13. 支持跨域数据汇聚的关系数据访问服务研究,TP311.13
  14. 软件安全领域垂直搜索引擎的优化设计与实现,TP391.3
  15. 基于Web页面嵌套模式的包装器生成系统的设计与实现,TP393.092
  16. 基于语义的Web服务匹配研究,TP393.09
  17. 基于语义的Web服务自动组合的研究,TP393.09
  18. DWIIS系统中查询接口集成机制的研究,TP393.09
  19. Deep Web数据源发现和选择研究,TP393.09
  20. 基于DOM树的Deep Web实体抽取的研究与实现,TP393.09
  21. 基于结果模式的Deep Web数据抽取机制的研究,TP393.09

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 文字信息处理
© 2012 www.xueweilunwen.com