学位论文 > 优秀研究生学位论文题录展示
基于Web页面嵌套模式的包装器生成系统的设计与实现
作 者: 沈迅
导 师: 宋茂强
学 校: 北京邮电大学
专 业: 软件工程
关键词: Web信息 Deep Web 网页除噪 后缀树
分类号: TP393.092
类 型: 硕士论文
年 份: 2010年
下 载: 14次
引 用: 0次
阅 读: 论文下载
内容摘要
随着互联网的高速发展,人们越来越需要从海量的数据中找到自己所需的信息,这些信息大多数都存储在半结构化的Web页面中,以HTML语言表示的Web页面只适合人阅读,计算机是无法理解和自动处理这些信息的。如果能够把Web页面中有用的信息提取出来,存储为计算机易于处理的数据结构,那么就大大加强了对信息的查询和处理的能力。因此,把来自多个网站域的Web页面中的有用信息提取出来,并进行集成,存储为传统的数据库形式是必要的,这就是Web信息提取与集成技术,目前Web信息的自动提取主要是通过包装器(Wrapper)实现的。在Deep Web中,对于具有嵌套结构的Web页面,本文实现了一个能自动生成包装器的系统。对给定的Web页面,该系统分四步构造包装器:1.对Web页面进行预处理,去除网页噪声。针对已有的基于DOM树的去噪算法的缺陷,本文提出了一种新的去噪算法:ENDW(Eliminating Noisy Data in Web pages),它的主要特点是充分利用查询关键字,能够有效的保证Web页面中有效数据的完整性。2.对经过预处理和除噪后的Web页面,把它们的HTML代码看作字符串,用Ukkonen算法构造其后缀树。引入后缀树的目的是找到Web页面内的连续重复子串。3.利用后缀树找到HTML代码中的连续重复子串。由于Deep Web页面内的数据记录构成了连续重复子串,可以用嵌套模式来对Web页面进行建模。得到HTML页面内的连续重复子串后,就可以进一步归纳出能够描述Web页面嵌套模式的正则表达式。4.生成Web页面嵌套模式的正则表达式,即包装器。
|
全文目录
摘要 4-5 ABSTRACT 5-9 第一章 引言 9-14 1.1 研究背景 9 1.2 DEEP WEB 9-12 1.2.1 Deep Web的提出 9-10 1.2.2 Deep Web数据提取与集成 10-12 1.3 本文所做的工作以及内容安排 12-14 1.3.1 本文所做的工作 12-13 1.3.2 本文内容安排 13-14 第二章 WEB信息提取综述和相关原理 14-34 2.1 WEB页面特性 14-17 2.1.1 半结构化数据 14 2.1.2 Web页面模型 14-17 2.1.3 Deep Web页面生成的模型 17 2.2 WEB信息的提取 17-23 2.2.1 Web信息提取的定义 17-18 2.2.2 Web页面信息提取模型 18 2.2.3 Web信息提取技术的产生发展与研究 18-23 2.3 本文所用的基本原理 23-34 2.3.1 后缀树 23-29 2.3.2 后缀树查找连续重复子串 29-31 2.3.3 Web页面嵌套模式 31-33 2.3.4 数据的最终提取 33-34 第三章 WEB页面噪声的去除 34-52 3.1 DOM技术介绍 35-36 3.2 基于DOM树的WEB页面噪声去除技术 36-52 3.2.1 算法的实现 36-39 3.2.2 算法的缺陷 39-40 3.2.3 算法的改进 40-47 3.2.4 对改进算法的分析 47-48 3.2.5 除噪算法测试 48-52 第四章 页面嵌套模式 52-63 4.1 概述 52-53 4.2 基于UKKONEN算法构造后缀树的模式 53-57 4.2.1 HTML代码预处理 53-54 4.2.2 构造字符串后缀树的意义 54-57 4.3 连续重复子串的具体实现 57-59 4.3.1 基于后缀树发现连续重复子串的实现 57-58 4.3.2 算法分析 58-59 4.4 WEB页面嵌套模式的实现 59-63 4.4.1 模式树的实现 59-60 4.4.2 算法设计分析 60 4.4.3 需要解决的问题 60-63 第五章 应用包装器的系统测试 63-68 5.1 系统架构 63 5.2 系统流程 63-65 5.3 系统测试 65-68 第六章 结束语 68-70 6.1 论文工作总结 68 6.2 工作展望 68-70 6.2.1 针对页面去噪技术的展望 68-69 6.2.2 对发现Web页面嵌套模式的展望 69 6.2.3 对信息提取技术的工作展望 69-70 参考文献 70-72 致谢 72
|
相似论文
- 基于串核的蛋白质分类算法的研究与实现,TP301.6
- 网页属性抽取的方法研究,TP391.1
- 面向短消息文本的聚类技术研究与应用,TP391.1
- 基于web的人事档案管理信息平台的设计与实现,TP311.52
- Deep Web集成系统中同类主题数据源选择方法研究,TP311.13
- Deep Web数据清洗方法研究及应用,TP393.09
- 网络舆情数据获取与话题分析技术研究,TP393.09
- 基于DOM的Web信息抽取系统设计与实现,TP393.09
- Deep Web查询接口集成及搜索策略研究,TP393.09
- 基于领域知识的Deep Web接口发现研究,TP393.09
- Deep Web数据集成系统中数据标注研究,TP393.09
- Deep Web数据抽取及语义标注研究,TP393.09
- Deep Web数据库的选择研究,TP311.13
- 基因组中最大唯一匹配的查找算法研究,TP301.6
- Web中文文本聚类研究,TP391.1
- 基于Web的股评观点倾向性分析研究,TP391.1
- 面向领域的半结构化Web信息抽取技术,TP391.1
- 基于数据处理中心的企业竞争情报系统研究,F272
- DNA序列中串联重复体查找算法研究,R346
- DWIIS系统中查询接口集成机制的研究,TP393.09
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 计算机网络 > 一般性问题 > 计算机网络应用程序 > 网络浏览器
© 2012 www.xueweilunwen.com
|