学位论文 > 优秀研究生学位论文题录展示

基于Web页面嵌套模式的包装器生成系统的设计与实现

作 者: 沈迅
导 师: 宋茂强
学 校: 北京邮电大学
专 业: 软件工程
关键词: Web信息 Deep Web 网页除噪 后缀树
分类号: TP393.092
类 型: 硕士论文
年 份: 2010年
下 载: 14次
引 用: 0次
阅 读: 论文下载
 

内容摘要


随着互联网的高速发展,人们越来越需要从海量的数据中找到自己所需的信息,这些信息大多数都存储在半结构化的Web页面中,以HTML语言表示的Web页面只适合人阅读,计算机是无法理解和自动处理这些信息的。如果能够把Web页面中有用的信息提取出来,存储为计算机易于处理的数据结构,那么就大大加强了对信息的查询和处理的能力。因此,把来自多个网站域的Web页面中的有用信息提取出来,并进行集成,存储为传统的数据库形式是必要的,这就是Web信息提取与集成技术,目前Web信息的自动提取主要是通过包装器(Wrapper)实现的。在Deep Web中,对于具有嵌套结构的Web页面,本文实现了一个能自动生成包装器的系统。对给定的Web页面,该系统分四步构造包装器:1.对Web页面进行预处理,去除网页噪声。针对已有的基于DOM树的去噪算法的缺陷,本文提出了一种新的去噪算法:ENDW(Eliminating Noisy Data in Web pages),它的主要特点是充分利用查询关键字,能够有效的保证Web页面中有效数据的完整性。2.对经过预处理和除噪后的Web页面,把它们的HTML代码看作字符串,用Ukkonen算法构造其后缀树。引入后缀树的目的是找到Web页面内的连续重复子串。3.利用后缀树找到HTML代码中的连续重复子串。由于Deep Web页面内的数据记录构成了连续重复子串,可以用嵌套模式来对Web页面进行建模。得到HTML页面内的连续重复子串后,就可以进一步归纳出能够描述Web页面嵌套模式的正则表达式。4.生成Web页面嵌套模式的正则表达式,即包装器。

全文目录


摘要  4-5
ABSTRACT  5-9
第一章 引言  9-14
  1.1 研究背景  9
  1.2 DEEP WEB  9-12
    1.2.1 Deep Web的提出  9-10
    1.2.2 Deep Web数据提取与集成  10-12
  1.3 本文所做的工作以及内容安排  12-14
    1.3.1 本文所做的工作  12-13
    1.3.2 本文内容安排  13-14
第二章 WEB信息提取综述和相关原理  14-34
  2.1 WEB页面特性  14-17
    2.1.1 半结构化数据  14
    2.1.2 Web页面模型  14-17
    2.1.3 Deep Web页面生成的模型  17
  2.2 WEB信息的提取  17-23
    2.2.1 Web信息提取的定义  17-18
    2.2.2 Web页面信息提取模型  18
    2.2.3 Web信息提取技术的产生发展与研究  18-23
  2.3 本文所用的基本原理  23-34
    2.3.1 后缀树  23-29
    2.3.2 后缀树查找连续重复子串  29-31
    2.3.3 Web页面嵌套模式  31-33
    2.3.4 数据的最终提取  33-34
第三章 WEB页面噪声的去除  34-52
  3.1 DOM技术介绍  35-36
  3.2 基于DOM树的WEB页面噪声去除技术  36-52
    3.2.1 算法的实现  36-39
    3.2.2 算法的缺陷  39-40
    3.2.3 算法的改进  40-47
    3.2.4 对改进算法的分析  47-48
    3.2.5 除噪算法测试  48-52
第四章 页面嵌套模式  52-63
  4.1 概述  52-53
  4.2 基于UKKONEN算法构造后缀树的模式  53-57
    4.2.1 HTML代码预处理  53-54
    4.2.2 构造字符串后缀树的意义  54-57
  4.3 连续重复子串的具体实现  57-59
    4.3.1 基于后缀树发现连续重复子串的实现  57-58
    4.3.2 算法分析  58-59
  4.4 WEB页面嵌套模式的实现  59-63
    4.4.1 模式树的实现  59-60
    4.4.2 算法设计分析  60
    4.4.3 需要解决的问题  60-63
第五章 应用包装器的系统测试  63-68
  5.1 系统架构  63
  5.2 系统流程  63-65
  5.3 系统测试  65-68
第六章 结束语  68-70
  6.1 论文工作总结  68
  6.2 工作展望  68-70
    6.2.1 针对页面去噪技术的展望  68-69
    6.2.2 对发现Web页面嵌套模式的展望  69
    6.2.3 对信息提取技术的工作展望  69-70
参考文献  70-72
致谢  72

相似论文

  1. 基于串核的蛋白质分类算法的研究与实现,TP301.6
  2. 网页属性抽取的方法研究,TP391.1
  3. 面向短消息文本的聚类技术研究与应用,TP391.1
  4. 基于web的人事档案管理信息平台的设计与实现,TP311.52
  5. Deep Web集成系统中同类主题数据源选择方法研究,TP311.13
  6. Deep Web数据清洗方法研究及应用,TP393.09
  7. 网络舆情数据获取与话题分析技术研究,TP393.09
  8. 基于DOM的Web信息抽取系统设计与实现,TP393.09
  9. Deep Web查询接口集成及搜索策略研究,TP393.09
  10. 基于领域知识的Deep Web接口发现研究,TP393.09
  11. Deep Web数据集成系统中数据标注研究,TP393.09
  12. Deep Web数据抽取及语义标注研究,TP393.09
  13. Deep Web数据库的选择研究,TP311.13
  14. 基因组中最大唯一匹配的查找算法研究,TP301.6
  15. Web中文文本聚类研究,TP391.1
  16. 基于Web的股评观点倾向性分析研究,TP391.1
  17. 面向领域的半结构化Web信息抽取技术,TP391.1
  18. 基于数据处理中心的企业竞争情报系统研究,F272
  19. DNA序列中串联重复体查找算法研究,R346
  20. DWIIS系统中查询接口集成机制的研究,TP393.09

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 计算机网络 > 一般性问题 > 计算机网络应用程序 > 网络浏览器
© 2012 www.xueweilunwen.com