学位论文 > 优秀研究生学位论文题录展示

基于多特征的Web页面分块算法MFPS的研究与实现

作　者: 于建家
导　师: 张斌
学　校: 东北大学
专　业: 计算机应用技术
关键词: Web信息抽取 Web页面分块多特征分析相似块识别页面类型识别
分类号: TP393.092
类　型: 硕士论文
年　份: 2008年
下　载: 24次
引　用: 1次
阅　读: 论文下载

内容摘要

随着互联网的快速发展,Web已成为人们获取信息的重要来源。为了满足人们不断增长的从互联网上获取信息的需求,Web信息抽取技术不可避免地成为当今研究的技术热点。由于互联网上的Web页面往往具有多样性、不规范性、包含信息复杂以及半结构化等特性,这些特性为Web信息抽取技术带来了很大的困难。如何使Web信息抽取技术不受Web页面特性影响而具有通用性,并能精确地抽取页面信息成为Web信息抽取技术亟待解决的问题。在对复杂的Web页面进行信息抽取的过程中,Web页面分块技术成为目前研究的一个方向。然而,目前的Web页面分块算法多数利用单一特征信息对Web页面进行分块,不能很好地应对复杂多变的Web页面类型。针对这种情况,本文提出了基于多特征的Web页面分块算法,该算法先将Web页面分成若干个相互独立的语义块,再根据应用的需要,从中选取具有相应语义特征的语义块进行信息抽取。本文首先分析了Web页面中的布局特征、显示特征、语义特征和文档结构特征等多特征信息,建立了基于多特征的Web页面语义块模型。在此基础上,本文提出了基于多特征的Web页面分块算法MFPS,并阐述了MFPS分块算法的基本思想和执行过程。然后,本文重点阐述了MFPS分块算法的实现,其中分析并解决了相似块识别的问题,阐述了包括单行类型、多行类型、多块类型、行块交替类型等类型的结点序列的合并方法,给出了包括语义类型、分割类型、多特征信息的识别方法,给出了MFPS分块算法的形式化描述,并对MFPS分块算法的性能做了分析。最后,本文提出了以MFPS分块算法为基础的基于块的重要度的页面类型识别算法PTIBID,该方法通过分析MFPS分块算法得到的语义块结构及多特征信息,能够有效地识别页面类型并抽取出其中的信息属性,以满足实际Web信息抽取的需要。实验结果表明,与现有的分块算法相比,MFPS分块算法具有分块精度较高、分块结构较为合理、适应能力较强等特点,可以为Web信息抽取技术提供有效的支持。

全文目录

摘要  5-6
ABSTRACT  6-10
第一章绪论  10-14
  1.1 研究背景  10-11
  1.2 研究目标  11-12
  1.3 本文工作  12-14
第二章研究基础  14-22
  2.1 Web信息抽取技术  14-16
    2.1.1 Web信息抽取  14
    2.1.2 Web信息抽取技术的分类  14-16
  2.2 Web页面特性  16-19
    2.2.1 信息聚合特性  16-17
    2.2.2 信息复杂性  17
    2.2.3 半结构化特性  17-18
    2.2.4 多样性与非规范性  18
    2.2.5 布局方式的灵活性  18-19
  2.3 Web页面分块技术  19-22
    2.3.1 HTML标签分析法  19
    2.3.2 DOM树分析法  19-20
    2.3.3 其他方法  20-21
    2.3.4 Web页面分块技术的应用  21-22
第三章基于多特征的WEB页面分块算法  22-36
  3.1 Web页面特征分析  22-29
    3.1.1 布局特征分析  22-24
    3.1.2 显示特征分析  24-26
    3.1.3 语义特征分析  26-28
    3.1.4 文档结构特征分析  28-29
  3.2 基于多特征的语义块模型  29-32
  3.3 基于语义块模型的MFPS分块算法  32-36
    3.3.1 算法思想  32
    3.3.2 MFPS分块过程  32-36
第四章 MFPS分块算法的实现  36-56
  4.1 相似块的识别方法  36-38
  4.2 结点序列的合并方法  38-44
    4.2.1 单行类型的合并  38-39
    4.2.2 多行类型的合并  39-41
    4.2.3 多块类型的合并  41-43
    4.2.4 行块交替类型的合并  43-44
  4.3 分割类型的识别方法  44-45
  4.4 语义类型的识别方法  45-50
    4.4.1 文本类型的识别  46-47
    4.4.2 图片类型的识别  47
    4.4.3 文本链接类型的识别  47-48
    4.4.4 图片链接类型的识别  48-49
    4.4.5 表单类型的识别  49-50
    4.4.6 普通类型的识别  50
  4.5 多特征信息的识别方法  50-51
  4.6 MFPS分块算法的基本实现  51-53
  4.7 性能分析  53-56
第五章基于MFPS分块算法的页面类型识别与信息属性的抽取  56-74
  5.1 面向主题的块的重要度分析  56-66
    5.1.1 面向主题的块的重要度  56-58
    5.1.2 分隔条检测  58-63
    5.1.3 块的重要度的计算算法  63-66
  5.2 新闻页面识别与信息属性的抽取  66-70
    5.2.1 新闻页面识别算法  67-68
    5.2.2 信息属性的抽取  68
    5.2.3 实验结果  68-70
  5.3 导航页面识别与信息属性的抽取  70-74
    5.3.1 导航页面识别算法  70-71
    5.3.2 信息属性的抽取  71-72
    5.3.3 实验结果  72-74
第六章结论  74-76
参考文献  76-80
致谢  80

基于多特征的Web页面分块算法MFPS的研究与实现

内容摘要

全文目录

相似论文