学位论文 > 优秀研究生学位论文题录展示

Web数据集成中全局模式构建方法研究

作 者: 徐秀星
导 师: 李庆忠
学 校: 山东大学
专 业: 计算机软件与理论
关键词: Web数据集成 Web实体 属性标签 局部模式 全局模式 主数据区域
分类号: TP393.09
类 型: 硕士论文
年 份: 2011年
下 载: 15次
引 用: 0次
阅 读: 论文下载
 

内容摘要


随着计算机及互联网技术的快速发展,Web上的信息量也随之急剧的增长,使得Web成为巨大的分布广泛的数据源。随着各行业对信息的需求越来越高,而有效的整合Web上的海量的异构的数据是一件困难的事情,因而人们提出Web数据集成技术。Web数据集成系统能够将来自多个数据源的数据通过数据抽取、实体统一等过程形成结构统一、表意明确的数据,能够为用户的情报分析、商业决策等应用提供支持。在Web数据集成中,Web页面中的Web数据对象称之为Web实体实例,来自不同数据源的Web实体实例信息在模式上存在着诸多的差异:一方面,对于相同类型的Web实体,不同的Web实体实例通常包含不同的实体属性;另一方面,对于同一实体属性,不同的Web实体实例通常使用不同的属性标签。而且由于Web实体的动态性特点,包含新的属性的Web实体实例及包含新的属性标签的Web实体实例不断的出现在Web页面中。Web实体实例在模式上的诸多差异为数据的整合带来困难。为了消除各Web实体实例间的模式差异,为所有数据提供统一的、规范的模式,需要为Web数据集成系统中所有的Web实体实例构建一个全局模式。本文主要研究Web数据集成中Web实体全局模式的构建方法,主要工作包括下面几个方面:(1)基于Web实体实例在页面中的展示特征及Web数据集成系统中已有的Web实体全局模式信息,本文提出一种基于SVM的Web页面主数据区域识别方法,该方法能够有效的将半结构化及非结构化页面进行数据区域分割并识别出Web实体实例所在的主数据区域,为Web实体属性信息的抽取提供辅助支持。(2)基于Web实体属性标签的特征及Web数据集成系统中已有的Web实体全局模式信息,本文提出一种基于AdaBoost的集成学习方法来从页面的主数据区域自动的抽取Web实体的属性信息,为Web实体全局模式构建提供Web实体模式信息及属性标签信息。(3)基于Web实体模式信息动态变化的特点,本文提出一种基于SVM的Web实体全局模式动态构建方法,该方法可以有效的建立局部模式与全局模式之间的映射关系,根据映射结果扩充全局模式,并且当页面中出现新的Web实体属性信息时,该方法能够及时的将其映射到全局模式中,从而为Web数据集成系统中其他方面的工作提供完整有效的Web实体全局模式。(4)本文利用Web数据集成系统中已有的Web实体全局模式来指导Web页面主数据区域的识别及Web实体属性信息的抽取,从而提高其准确率。Web实体全局模式与Web页面主数据区域识别及Web实体属性信息抽取之间的相互促进作用主要表现为:一方面,Web页面主数据区域的识别及Web实体属性信息的抽取为Web实体全局模式提供更多、更准确的数据支持;另一方面,逐渐丰富的全局模式促进了Web页面主数据区域识别及Web实体属性信息抽取的准确率的提高。本文中的实验验证了这种相互间的促进作用。此外,本文中设计并实现的Web实体全局模式构建原型系统从实际应用角度验证了本文的研究成果。

全文目录


摘要  8-10
ABSTRACT  10-12
第一章 绪论  12-20
  1.1 研究背景及意义  12-14
  1.2 国内外相关研究  14-18
  1.3 研究内容与主要工作  18-19
  1.4 本文组织结构  19-20
第二章 基于SVM的Web页面主数据区域识别方法  20-31
  2.1 引言  20-21
  2.2 问题定义  21-22
  2.3 Web页面主数据区域识别方法  22-23
  2.4 Web页面数据区域分割  23-25
    2.4.1 分割规则  23
    2.4.2 分割过程  23-25
  2.5 SVM分类器的构建  25-26
    2.5.1 特征选取及特征向量的计算方法  25-26
    2.5.2 分类器的构建  26
  2.6 主数据区域的识别算法  26-27
  2.7 实验  27-29
  2.8 本章小结  29-31
第三章 基于AdaBoost的Web实体属性信息抽取方法  31-39
  3.1 引言  31
  3.2 特征选取及训练集的生成  31-33
    3.2.1 特征选取  31-33
    3.2.2 训练集的生成  33
  3.3 Web实体属性信息抽取  33-35
    3.3.1 AdaBoost分类器构造算法  33-34
    3.3.2 Web实体信息抽取算法  34-35
  3.4 实验  35-38
  3.5 本章小结  38-39
第四章 Web实体全局模式动态构建方法  39-48
  4.1 引言  39-41
  4.2 问题定义  41
  4.3 Web实体全局模式的构建方法  41-42
  4.4 SVM分类器的构建  42-44
  4.5 动态构建Web实体全局模式  44-45
  4.6 实验  45-47
  4.7 本章小结  47-48
第五章 Web实体全局模式构建原型系统  48-54
  5.1 Web实体全局模式构建原型系统架构  48-51
  5.2 Web实体全局模式构建原型系统工作流程  51-52
  5.3 本章小结  52-54
第六章 总结与展望  54-56
参考文献  56-60
致谢  60-61
攻读学位期间发表的学术论文  61-62
攻读学位期间参与科研项目情况  62-63
学位论文评阅及答辩情况表  63

相似论文

  1. 分布式数据库技术研究与其在战场信息系统集成中的应用,TP311.13
  2. Deep Web数据源下重复记录识别模型的研究,TP311.13
  3. Web数据集成中包装器自适应方法研究,TP393.09
  4. 锥形光纤的理论研究,TN253
  5. 基于K-medoids聚类算法Web信息集成方法的研究与实现,TP393.09
  6. Deep Web数据集成中模式匹配研究,TP311.13
  7. 基于XML的数据集成技术的研究与实现,TP311.52
  8. Deep Web数据抽取及集成技术研究,TP393.092
  9. Deep Web环境下多源模式匹配方法的研究,TP311.132
  10. 面向Web数据集成的实体统一技术研究,TP311.13
  11. 应用于网上图书领域的DeepWeb实体识别,TP391.4
  12. 异构数据库集成技术在港航信息资源库开发中的应用研究,TP311.13
  13. 异构数据库集成中数据传输问题的研究,TP311.13
  14. 数据库中Burst模式挖掘的研究与实现,TP311.13
  15. 数据库中有趣模式挖掘算法的研究,TP311.13
  16. Deep Web模式匹配技术研究,TP393.092
  17. 以精细营销为目标的移动通信增值业务客户行为分析,F626
  18. Deep Web实体搜索的关键技术研究,TP311.13
  19. Deep Web查询中的不确定性问题研究,TP311.13
  20. Deep Web数据集成关键技术及其在农业领域的应用,TP311.13

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 计算机网络 > 一般性问题 > 计算机网络应用程序
© 2012 www.xueweilunwen.com