学位论文 > 优秀研究生学位论文题录展示
Web信息集成技术研究与实现
作 者: 蒋璐瑾
导 师: 奚建清
学 校: 华南理工大学
专 业: 计算机软件与理论
关键词: Web信息系统集成 Deep Web 网页模式识别 用户行为模拟
分类号: TP393.09
类 型: 硕士论文
年 份: 2010年
下 载: 81次
引 用: 0次
阅 读: 论文下载
内容摘要
随着Internet的蓬勃发展,网络呈现出动态化、开放化的特点。当前Web环境中,许多网页是由网站根据用户请求从后台数据库中动态生成。这些动态生成页面被称为Deep Web。为了从这些Deep Web上抽取出有用的信息,实现Web上的信息系统集成与交换,需要寻求一种简单有效的信息集成技术。本文基托于实验室原有信息交换平台IEP系统的工作流机制,对Deep Web下的信息抽取技术和信息集成技术做出了研究。包括:1)基于表单模式识别的网页信息抽取技术。当前网页中的结构呈现出多样性和无结构化的特点。文中通过同类网站的对比分析,对页面进行解析,去除掉页面中的冗余信息,定位主题所在的模块。之后对该模块进行模式的自动判别,生成抽取规则,并根据规则实现页面的信息抽取。将无结构的页面内容转化为用户真正需要的结构化的信息数据。2)基于用户行为模仿的Web集成技术。通过记录用户在网页上的操作行为,算法能模拟用户行为与网络服务器进行交互,代替用户手工输入,自动提交请求,从而获取动态网页中隐藏在后台的信息。为了实现Web上的集成交换,首先要定义信息交换的具体流程。根据用户配置好的流程文件,工作流执行引擎调度各模块实现信息集成与交换的各个流程。在以上研究的基础上设计并实现了Web信息交换平台原型系统WIEP。在WIEP上进行的实验表明:文中设计的表单(或文本块)模式识别算法能自动识别不同网页中的模式类型,并能根据模式规则实现页面的内容抽取。而依托于工作流引擎的流程配置和流程执行,能很好地完成Web系统的信息集成与交换,并支持异构数据源与各种数据终端类型。实验系统同时具有良好的性能和一定的商业应用前景,适合中小型企业使用。
|
全文目录
摘要 5-6 Abstract 6-10 第一章 绪论 10-17 1.1 研究背景 10-11 1.2 Web 信息集成技术简介 11-13 1.3 国内外研究现状 13-14 1.3.1 国外研究现状 13-14 1.3.2 国内研究现状 14 1.4 课题研究工作和论文创新点 14-16 1.4.1 主要研究工作 14-15 1.4.2 论文创新点及研究成果 15-16 1.5 论文的组织架构 16-17 第二章 相关理论知识介绍 17-27 2.1 Web 信息抽取技术概述 17-19 2.1.1 Web 信息抽取技术简介 17-18 2.1.2 不同技术之间的对比分析 18-19 2.1.3 Web 信息抽取技术的评判标准 19 2.2 Web 信息系统集成 19-21 2.2.1 Wrapper/Mediator 技术 20-21 2.2.2 数据交换技术 21 2.3 相关标准 21-24 2.3.1 HTML 21-22 2.3.2 XML 22-23 2.3.3 DOM 23-24 2.4 IEP(信息交换平台)简介 24-26 2.4.1 系统框架介绍 24-25 2.4.2 系统运作过程 25-26 2.5 本章小结 26-27 第三章 基于表单模式识别的网页信息抽取 27-41 3.1 基于HTML 结构的主题Block 定位 29-31 3.1.1 HTML 页面解析 29-30 3.1.2 定位主题Block 30-31 3.2 表单模式的定义和判定 31-36 3.2.1 表单模式概述 31-32 3.2.2 表单模式判定算法 32-36 3.3 基于抽取规则的数据抽取 36-38 3.3.1 生成抽取规则 36-37 3.3.2 数据抽取 37-38 3.4 网页信息抽取的规则定义和数据抽取流程 38-40 3.4.1 规则定义的工作流程 38-39 3.4.2 数据抽取的工作流程 39-40 3.5 本章小结 40-41 第四章 基于用户行为模仿的Web 集成交换 41-55 4.1 记录用户行为 41-43 4.1.1 用户行为定义 41-42 4.1.2 记录操作流程 42-43 4.2 基于模仿的表单自动填充技术 43-47 4.2.1 表单自动填充的工作流程 43-45 4.2.2 一些特殊情况的处理 45-47 4.3 Web 信息交换过程定义 47-51 4.3.1 工作流机制 47-48 4.3.2 Web 信息交换的工作流定义 48-50 4.3.3 定义针对具体网站的信息交换过程 50-51 4.4 Web 信息交换的调度执行 51-54 4.4.1 Web 信息交换的工作流执行引擎 51-53 4.4.2 针对具体网站的Web 信息交换 53-54 4.5 本章小结 54-55 第五章 实验与结果分析 55-62 5.1 实验系统概述 55-58 5.1.1 实验系统框架说明 55 5.1.2 实验系统功能说明 55-58 5.2 测试环境 58 5.3 实验结果分析 58-61 5.3.1 系统正确性实验 58-60 5.3.2 系统性能测试 60-61 5.4 本章小结 61-62 总结与展望 62-64 参考文献 64-67 攻读硕士学位期间取得的研究成果 67-68 致谢 68
|
相似论文
- Deep Web集成系统中同类主题数据源选择方法研究,TP311.13
- Deep Web数据清洗方法研究及应用,TP393.09
- Deep Web查询接口集成及搜索策略研究,TP393.09
- 基于领域知识的Deep Web接口发现研究,TP393.09
- Deep Web数据集成系统中数据标注研究,TP393.09
- Deep Web数据抽取及语义标注研究,TP393.09
- Deep Web数据库的选择研究,TP311.13
- 基于Web页面嵌套模式的包装器生成系统的设计与实现,TP393.092
- DWIIS系统中查询接口集成机制的研究,TP393.09
- Deep Web数据源发现和选择研究,TP393.09
- 基于DOM树的Deep Web实体抽取的研究与实现,TP393.09
- 基于结果模式的Deep Web数据抽取机制的研究,TP393.09
- 基于领域特征的两阶段查询接口抽取技术的研究与实现,TP393.09
- Deep Web环境下数据抽取及模式识别的研究,TP393.09
- Deep Web环境下查询松弛技术的研究,TP393.09
- 基于CPN网络的Deep Web集成系统中结果模式语义标注方法,TP393.09
- Deep Web下不确定数据处理的研究,TP311.13
- Deep Web数据源发现与采样研究,TP311.13
- 基于本体的深度搜索系统关键词库的构造与研究,TP391.3
- 电信管理下的混合架构VOD系统的分析和模拟,TN948.64
- 林业企业黄页Deep Web数据集成研究,F326.2
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 计算机网络 > 一般性问题 > 计算机网络应用程序
© 2012 www.xueweilunwen.com
|