学位论文 > 优秀研究生学位论文题录展示

基于多特征的Web页面分块算法MFPS的研究与实现

作 者: 于建家
导 师: 张斌
学 校: 东北大学
专 业: 计算机应用技术
关键词: Web信息抽取 Web页面分块 多特征分析 相似块识别 页面类型识别
分类号: TP393.092
类 型: 硕士论文
年 份: 2008年
下 载: 24次
引 用: 1次
阅 读: 论文下载
 

内容摘要


随着互联网的快速发展,Web已成为人们获取信息的重要来源。为了满足人们不断增长的从互联网上获取信息的需求,Web信息抽取技术不可避免地成为当今研究的技术热点。由于互联网上的Web页面往往具有多样性、不规范性、包含信息复杂以及半结构化等特性,这些特性为Web信息抽取技术带来了很大的困难。如何使Web信息抽取技术不受Web页面特性影响而具有通用性,并能精确地抽取页面信息成为Web信息抽取技术亟待解决的问题。在对复杂的Web页面进行信息抽取的过程中,Web页面分块技术成为目前研究的一个方向。然而,目前的Web页面分块算法多数利用单一特征信息对Web页面进行分块,不能很好地应对复杂多变的Web页面类型。针对这种情况,本文提出了基于多特征的Web页面分块算法,该算法先将Web页面分成若干个相互独立的语义块,再根据应用的需要,从中选取具有相应语义特征的语义块进行信息抽取。本文首先分析了Web页面中的布局特征、显示特征、语义特征和文档结构特征等多特征信息,建立了基于多特征的Web页面语义块模型。在此基础上,本文提出了基于多特征的Web页面分块算法MFPS,并阐述了MFPS分块算法的基本思想和执行过程。然后,本文重点阐述了MFPS分块算法的实现,其中分析并解决了相似块识别的问题,阐述了包括单行类型、多行类型、多块类型、行块交替类型等类型的结点序列的合并方法,给出了包括语义类型、分割类型、多特征信息的识别方法,给出了MFPS分块算法的形式化描述,并对MFPS分块算法的性能做了分析。最后,本文提出了以MFPS分块算法为基础的基于块的重要度的页面类型识别算法PTIBID,该方法通过分析MFPS分块算法得到的语义块结构及多特征信息,能够有效地识别页面类型并抽取出其中的信息属性,以满足实际Web信息抽取的需要。实验结果表明,与现有的分块算法相比,MFPS分块算法具有分块精度较高、分块结构较为合理、适应能力较强等特点,可以为Web信息抽取技术提供有效的支持。

全文目录


摘要  5-6
ABSTRACT  6-10
第一章 绪论  10-14
  1.1 研究背景  10-11
  1.2 研究目标  11-12
  1.3 本文工作  12-14
第二章 研究基础  14-22
  2.1 Web信息抽取技术  14-16
    2.1.1 Web信息抽取  14
    2.1.2 Web信息抽取技术的分类  14-16
  2.2 Web页面特性  16-19
    2.2.1 信息聚合特性  16-17
    2.2.2 信息复杂性  17
    2.2.3 半结构化特性  17-18
    2.2.4 多样性与非规范性  18
    2.2.5 布局方式的灵活性  18-19
  2.3 Web页面分块技术  19-22
    2.3.1 HTML标签分析法  19
    2.3.2 DOM树分析法  19-20
    2.3.3 其他方法  20-21
    2.3.4 Web页面分块技术的应用  21-22
第三章 基于多特征的WEB页面分块算法  22-36
  3.1 Web页面特征分析  22-29
    3.1.1 布局特征分析  22-24
    3.1.2 显示特征分析  24-26
    3.1.3 语义特征分析  26-28
    3.1.4 文档结构特征分析  28-29
  3.2 基于多特征的语义块模型  29-32
  3.3 基于语义块模型的MFPS分块算法  32-36
    3.3.1 算法思想  32
    3.3.2 MFPS分块过程  32-36
第四章 MFPS分块算法的实现  36-56
  4.1 相似块的识别方法  36-38
  4.2 结点序列的合并方法  38-44
    4.2.1 单行类型的合并  38-39
    4.2.2 多行类型的合并  39-41
    4.2.3 多块类型的合并  41-43
    4.2.4 行块交替类型的合并  43-44
  4.3 分割类型的识别方法  44-45
  4.4 语义类型的识别方法  45-50
    4.4.1 文本类型的识别  46-47
    4.4.2 图片类型的识别  47
    4.4.3 文本链接类型的识别  47-48
    4.4.4 图片链接类型的识别  48-49
    4.4.5 表单类型的识别  49-50
    4.4.6 普通类型的识别  50
  4.5 多特征信息的识别方法  50-51
  4.6 MFPS分块算法的基本实现  51-53
  4.7 性能分析  53-56
第五章 基于MFPS分块算法的页面类型识别与信息属性的抽取  56-74
  5.1 面向主题的块的重要度分析  56-66
    5.1.1 面向主题的块的重要度  56-58
    5.1.2 分隔条检测  58-63
    5.1.3 块的重要度的计算算法  63-66
  5.2 新闻页面识别与信息属性的抽取  66-70
    5.2.1 新闻页面识别算法  67-68
    5.2.2 信息属性的抽取  68
    5.2.3 实验结果  68-70
  5.3 导航页面识别与信息属性的抽取  70-74
    5.3.1 导航页面识别算法  70-71
    5.3.2 信息属性的抽取  71-72
    5.3.3 实验结果  72-74
第六章 结论  74-76
参考文献  76-80
致谢  80

相似论文

  1. 网页属性抽取的方法研究,TP391.1
  2. 网络舆情数据获取与话题分析技术研究,TP393.09
  3. 基于DOM的Web信息抽取系统设计与实现,TP393.09
  4. 基于Web的股评观点倾向性分析研究,TP391.1
  5. 面向领域的半结构化Web信息抽取技术,TP391.1
  6. 基于数据处理中心的企业竞争情报系统研究,F272
  7. 基于页面分块的Web档案构建技术研究,TP393.09
  8. 基于Web的竞争信息抽取研究,TP391.1
  9. 基于多维语义的互联网药品信息抽取的研究与应用,TP393.09
  10. 基于“中国科技论文在线”的用户关注度分析及个性化研究,TP18
  11. 基于HTML的Web信息抽取技术的研究与应用,TP393.09
  12. 基于领域本体的Web信息抽取技术研究,TP391.1
  13. 面向Web的图书信息抽取方法与实现,TP311.52
  14. 电子产品自动搜索比价系统设计与实现,TP311.52
  15. 基于Web信息自动抽取的英语题库生成算法研究,TP393.09
  16. 基于本体的旅游领域Web信息抽取,TP391.11
  17. WEB信息抽取的研究,TP391.1
  18. 网页事件信息抽取研究,TP393.092
  19. 基于条件随机域的Web信息抽取研究,TP393.09
  20. 基于Deep Web的网络信息抽取技术研究,TP393.09

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 计算机网络 > 一般性问题 > 计算机网络应用程序 > 网络浏览器
© 2012 www.xueweilunwen.com