学位论文 > 优秀研究生学位论文题录展示
基于结果模式的Deep Web语义标注研究
作 者: 李秀兰
导 师: 李明
学 校: 兰州理工大学
专 业: 计算机软件与理论
关键词: Deep Web 语义标注 接口模式 结果模式 启发式信息 数据标注 数据抽取
分类号: TP391.1
类 型: 硕士论文
年 份: 2011年
下 载: 29次
引 用: 0次
阅 读: 论文下载
内容摘要
随着Internet技术的飞速发展和网络中所含信息规模的不断扩大,存在越来越多以Web查询接口形式进行访问的Deep Web (简称Web数据库或WDB)资源。而信息检索作为互联网应用的重要组成部分,在网络环境下,随着对信息检索研究的不断深入,研究Deep Web数据集成系统受到越来越多的研究者的密切关注。通过最近的研究发现, Deep Web蕴含了大量有价值的数据信息,这些数据资源与市场的需求密切相关,为了能自动的、有效的获取Deep Web背后众多Web数据库信息资源,需要进行大量的WDB数据集成。WDB页面大多是带模板的结构化HTML文档,而HTML语言的特点是在Web上人们可以随意发布内容多种多样,形式不同的内容,这样使得Web上的内容处于杂乱无序的状态,对建立Web数据库集成系统造成了很大的困难。语义标注作为Deep Web数据集成系统中查询结果处理模块中一个非常重要的组成部分,它的主要工作是指对抽取出的Deep Web查询结果数据添加正确的语义信息,使这些数据具有更高的使用价值,同时能被计算机识别和处理。本文首先介绍了研究Deep Web的研究背景和相关知识;其次,对模式获取技术和Deep Web数据标注技术进行了深入的研究,并提出了相应的方法和模型结构图;最后,使用结果模式信息对WDB数据进行有效标注,其主要研究工作包括:1.针对Deep Web结果模式结构信息的丢失问题,提出了一种基于启发式信息的Deep Web结果模式获取方法。通过解析Deep Web结果页面数据,利用启发式信息为结果页面数据添加正确的属性名,进而得到对应Deep Web的结果模式,并对其进行规范化处理解决不同数据源结果模式的结构不一致问题。实验验证该方法可以有效地获取Deep Web的结果模式信息。2.通过对比不同的WDB语义标注方法的优缺点,针对已有的标注方法还不能较好的解决Deep Web查询结果数据的标注问题,提出一种基于结果模式的Deep Web数据标注方法。通过结果页面解析和抽取结构化数据来完成数据预处理的工作,并在集成结果模式和待标注数据之间建立正确的语义映射,进而确定Deep Web数据的标注信息。实验结果表明,该标注方法对查询结果数据具有较好的标注效果。
|
全文目录
摘要 7-8 Abstract 8-10 插图索引 10-11 附表索引 11-12 第1章 绪论 12-19 1.1 研究背景和意义 12-13 1.2 Deep Web 的规模与分布 13-14 1.3 国内外研究现状 14-15 1.4 Deep Web 语义标注的研究现状 15-17 1.5 本文的主要工作 17 1.6 本文的内容结构安排 17-19 第2章 Deep Web 的相关知识 19-34 2.1 Deep Web 简介 19-21 2.1.1 Deep Web 的定义 19-20 2.1.2 Deep Web 数据的结构化特性 20-21 2.2 Deep Web 数据集成的研究框架 21-24 2.2.1 集成查询接口生成模块 21-22 2.2.2 查询处理模块 22 2.2.3 查询结果处理模块 22-24 2.3 抽取Deep Web 接口模式和结果模式 24-33 2.3.1 Deep Web 模式的定义 25-27 2.3.2 Deep Web 模式的视觉特征 27-29 2.3.3 Deep Web 模式的抽取 29-33 2.4 本章小结 33-34 第3章 基于启发式信息的Deep Web 结果模式获取方法 34-43 3.1 获取结果模式的研究现状 34 3.2 结果模式的相关定义 34-35 3.3 Deep Web 结果模式获取过程 35-40 3.3.1 结果页面解析 35-38 3.3.2 基于启发式信息的属性标注 38-39 3.3.3 规范化处理结果模式 39-40 3.4 实验与结果分析 40-42 3.5 本章小结 42-43 第4章 一种基于结果模式的Deep Web 数据标注方法 43-51 4.1 WDB 数据标注的研究现状 43 4.2 分析结果模式 43-45 4.3 基于结果模式的数据标注 45-49 4.3.1 数据预处理 45-47 4.3.2 数据标注 47-49 4.4 实验与结果分析 49-50 4.5 本章小结 50-51 总结与展望 51-53 1 本文总结 51 2 今后工作展望 51-53 参考文献 53-58 致谢 58-59 附录A 攻读硕士学位期间所发表的学术论文 59
|
相似论文
- 基于SNS的教育视频细粒度标注研究与实现,TP391.6
- 图像语义标注中的块—全局特征提取方法研究,TP391.41
- 人体运动序列数据的语义化分析方法研究,TP391.1
- Deep Web集成系统中同类主题数据源选择方法研究,TP311.13
- 结合WordNet的领域语义标注研究,TP391.1
- Deep Web数据清洗方法研究及应用,TP393.09
- Deep Web查询接口集成及搜索策略研究,TP393.09
- 基于领域知识的Deep Web接口发现研究,TP393.09
- Deep Web数据集成系统中数据标注研究,TP393.09
- Deep Web数据抽取及语义标注研究,TP393.09
- Deep Web数据库的选择研究,TP311.13
- 数据资源汇聚的可视化建模技术研究与应用,TP311.52
- 支持跨域数据汇聚的关系数据访问服务研究,TP311.13
- 软件安全领域垂直搜索引擎的优化设计与实现,TP391.3
- 基于Web页面嵌套模式的包装器生成系统的设计与实现,TP393.092
- 基于语义的Web服务匹配研究,TP393.09
- 基于语义的Web服务自动组合的研究,TP393.09
- DWIIS系统中查询接口集成机制的研究,TP393.09
- Deep Web数据源发现和选择研究,TP393.09
- 基于DOM树的Deep Web实体抽取的研究与实现,TP393.09
- 基于结果模式的Deep Web数据抽取机制的研究,TP393.09
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 文字信息处理
© 2012 www.xueweilunwen.com
|