学位论文 > 优秀研究生学位论文题录展示

Web信息集成技术研究与实现

作 者: 蒋璐瑾
导 师: 奚建清
学 校: 华南理工大学
专 业: 计算机软件与理论
关键词: Web信息系统集成 Deep Web 网页模式识别 用户行为模拟
分类号: TP393.09
类 型: 硕士论文
年 份: 2010年
下 载: 81次
引 用: 0次
阅 读: 论文下载
 

内容摘要


随着Internet的蓬勃发展,网络呈现出动态化、开放化的特点。当前Web环境中,许多网页是由网站根据用户请求从后台数据库中动态生成。这些动态生成页面被称为Deep Web。为了从这些Deep Web上抽取出有用的信息,实现Web上的信息系统集成与交换,需要寻求一种简单有效的信息集成技术。本文基托于实验室原有信息交换平台IEP系统的工作流机制,对Deep Web下的信息抽取技术和信息集成技术做出了研究。包括:1)基于表单模式识别的网页信息抽取技术。当前网页中的结构呈现出多样性和无结构化的特点。文中通过同类网站的对比分析,对页面进行解析,去除掉页面中的冗余信息,定位主题所在的模块。之后对该模块进行模式的自动判别,生成抽取规则,并根据规则实现页面的信息抽取。将无结构的页面内容转化为用户真正需要的结构化的信息数据。2)基于用户行为模仿的Web集成技术。通过记录用户在网页上的操作行为,算法能模拟用户行为与网络服务器进行交互,代替用户手工输入,自动提交请求,从而获取动态网页中隐藏在后台的信息。为了实现Web上的集成交换,首先要定义信息交换的具体流程。根据用户配置好的流程文件,工作流执行引擎调度各模块实现信息集成与交换的各个流程。在以上研究的基础上设计并实现了Web信息交换平台原型系统WIEP。在WIEP上进行的实验表明:文中设计的表单(或文本块)模式识别算法能自动识别不同网页中的模式类型,并能根据模式规则实现页面的内容抽取。而依托于工作流引擎的流程配置和流程执行,能很好地完成Web系统的信息集成与交换,并支持异构数据源与各种数据终端类型。实验系统同时具有良好的性能和一定的商业应用前景,适合中小型企业使用。

全文目录


摘要  5-6
Abstract  6-10
第一章 绪论  10-17
  1.1 研究背景  10-11
  1.2 Web 信息集成技术简介  11-13
  1.3 国内外研究现状  13-14
    1.3.1 国外研究现状  13-14
    1.3.2 国内研究现状  14
  1.4 课题研究工作和论文创新点  14-16
    1.4.1 主要研究工作  14-15
    1.4.2 论文创新点及研究成果  15-16
  1.5 论文的组织架构  16-17
第二章 相关理论知识介绍  17-27
  2.1 Web 信息抽取技术概述  17-19
    2.1.1 Web 信息抽取技术简介  17-18
    2.1.2 不同技术之间的对比分析  18-19
    2.1.3 Web 信息抽取技术的评判标准  19
  2.2 Web 信息系统集成  19-21
    2.2.1 Wrapper/Mediator 技术  20-21
    2.2.2 数据交换技术  21
  2.3 相关标准  21-24
    2.3.1 HTML  21-22
    2.3.2 XML  22-23
    2.3.3 DOM  23-24
  2.4 IEP(信息交换平台)简介  24-26
    2.4.1 系统框架介绍  24-25
    2.4.2 系统运作过程  25-26
  2.5 本章小结  26-27
第三章 基于表单模式识别的网页信息抽取  27-41
  3.1 基于HTML 结构的主题Block 定位  29-31
    3.1.1 HTML 页面解析  29-30
    3.1.2 定位主题Block  30-31
  3.2 表单模式的定义和判定  31-36
    3.2.1 表单模式概述  31-32
    3.2.2 表单模式判定算法  32-36
  3.3 基于抽取规则的数据抽取  36-38
    3.3.1 生成抽取规则  36-37
    3.3.2 数据抽取  37-38
  3.4 网页信息抽取的规则定义和数据抽取流程  38-40
    3.4.1 规则定义的工作流程  38-39
    3.4.2 数据抽取的工作流程  39-40
  3.5 本章小结  40-41
第四章 基于用户行为模仿的Web 集成交换  41-55
  4.1 记录用户行为  41-43
    4.1.1 用户行为定义  41-42
    4.1.2 记录操作流程  42-43
  4.2 基于模仿的表单自动填充技术  43-47
    4.2.1 表单自动填充的工作流程  43-45
    4.2.2 一些特殊情况的处理  45-47
  4.3 Web 信息交换过程定义  47-51
    4.3.1 工作流机制  47-48
    4.3.2 Web 信息交换的工作流定义  48-50
    4.3.3 定义针对具体网站的信息交换过程  50-51
  4.4 Web 信息交换的调度执行  51-54
    4.4.1 Web 信息交换的工作流执行引擎  51-53
    4.4.2 针对具体网站的Web 信息交换  53-54
  4.5 本章小结  54-55
第五章 实验与结果分析  55-62
  5.1 实验系统概述  55-58
    5.1.1 实验系统框架说明  55
    5.1.2 实验系统功能说明  55-58
  5.2 测试环境  58
  5.3 实验结果分析  58-61
    5.3.1 系统正确性实验  58-60
    5.3.2 系统性能测试  60-61
  5.4 本章小结  61-62
总结与展望  62-64
参考文献  64-67
攻读硕士学位期间取得的研究成果  67-68
致谢  68

相似论文

  1. Deep Web集成系统中同类主题数据源选择方法研究,TP311.13
  2. Deep Web数据清洗方法研究及应用,TP393.09
  3. Deep Web查询接口集成及搜索策略研究,TP393.09
  4. 基于领域知识的Deep Web接口发现研究,TP393.09
  5. Deep Web数据集成系统中数据标注研究,TP393.09
  6. Deep Web数据抽取及语义标注研究,TP393.09
  7. Deep Web数据库的选择研究,TP311.13
  8. 基于Web页面嵌套模式的包装器生成系统的设计与实现,TP393.092
  9. DWIIS系统中查询接口集成机制的研究,TP393.09
  10. Deep Web数据源发现和选择研究,TP393.09
  11. 基于DOM树的Deep Web实体抽取的研究与实现,TP393.09
  12. 基于结果模式的Deep Web数据抽取机制的研究,TP393.09
  13. 基于领域特征的两阶段查询接口抽取技术的研究与实现,TP393.09
  14. Deep Web环境下数据抽取及模式识别的研究,TP393.09
  15. Deep Web环境下查询松弛技术的研究,TP393.09
  16. 基于CPN网络的Deep Web集成系统中结果模式语义标注方法,TP393.09
  17. Deep Web下不确定数据处理的研究,TP311.13
  18. Deep Web数据源发现与采样研究,TP311.13
  19. 基于本体的深度搜索系统关键词库的构造与研究,TP391.3
  20. 电信管理下的混合架构VOD系统的分析和模拟,TN948.64
  21. 林业企业黄页Deep Web数据集成研究,F326.2

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 计算机网络 > 一般性问题 > 计算机网络应用程序
© 2012 www.xueweilunwen.com