学位论文 > 优秀研究生学位论文题录展示

面向精确Web信息抽取的自动数据记录分析和识别技术研究

作　者: 全福亮
导　师: 黄宜华
学　校: 南京大学
专　业: 计算机软件与理论
关键词: 精确Web信息抽取数据记录结构分析简单树匹配算法特征加权树匹配算法特征分层过滤策略记录识别字段识别
分类号: TP393.09
类　型: 硕士论文
年　份: 2011年
下　载: 102次
引　用: 0次
阅　读: 论文下载

内容摘要

互联网技术的快速发展使Web成为全球范围内信息发布与分享的重要平台。电子商务、微博、社交网络、团购等一系列互联网应用不断涌现,Web网站(网页)数量急剧增加,其信息量也呈爆炸性增长。海量的Web数据中蕴藏了很多有价值的信息,因此,越来越多的应用希望能从Web中抽取准确有用的信息以便进行深度的分析处理从而提供更具价值的深度信息服务和应用。为此,Web信息抽取成为一个重要的研究热点。Web信息抽取技术研究目前最主要的难题是,如何在保证数据抽取精确性的同时,尽量提高数据抽取规则生成的自动化程度以便减少用户生成抽取规则的负担。现有的Web信息抽取研究工作大多未能在数据抽取精度和用户操作负担之间取得很好权衡,抽取精度较高的方法往往自动化程度较低,用户负担较大；而自动化程度高的方法往往抽取精度较低,两者通常难以兼顾。为了更好地解决这个问题,本文提出了一个面向精确Web信息抽取的综合模型和方法,并以此为基础,对自动化数据记录结构分析的相关技术进行了研究。本文主要研究工作如下：1)面向精确Web信息抽取,研究并提出了一个基于自动化页面结构分析和用户交互规则生成的综合模型和方法。该综合模型和方法可将自动化页面结构分析技术与基于用户交互的半自动化规则生成方法结合,根据页面数据的特征,使用自动结构分析技术来处理包含规整数据页面；而对于非规整数据页面,则借助于基于用户交互的半自动方法生成抽取规则。该模型可以在保证数据抽取精度的同时提高抽取处理的自动化程度,减少用户的操作负担。2)面向数据记录结构分析的需要,在详细研究分析HTML文档和节点元素特性的基础上,研究建立了完整的HTML文档与节点元素特征体系,包括反映节点元素自身特性的基本特征和反映不同类型节点对数据展示结构不同影响程度的分类特征。该特征体系为实现基于特征加权树匹配算法和特征分层过滤策略的数据记录结构分析技术奠定了良好的特征构架。3)研究提出基于特征分布特性的加权树匹配算法。在分析已有的简单树匹配算法的不足的基础上,本文提出一种基于节点在DOM树上分布特性的加权树匹配算法。该算法根据节点中包含的特征为节点赋以不同的权重,从而区分节点间不同的重要性,以此提高记录结构分析的准确性。4)研究提出基于特征的分层过滤策略。在分析HTML中各种元素所具特性的基础上,根据它们与数据结构语义之间所具有的不同程度的相关性,研究提出了基于特征的分层过滤策略。该策略把结构元素与属性元素区别对待,尽可能优先使用相关性更高的结构性元素进行数据记录结构分析；仅当结构元素节点不足以很好地分析出页面中记录时,再考虑使用底层的属性特征；并且,在进行数据记录分析时,将根据分类特征在DOM子树全部分类特征中的比重,自动选择使用适当层次的分类特征。基于特征加权树匹配算法和特征分层过滤策略,进一步完成数据记录的分析和识别。5)研究提出潜在数据块识别和过滤算法以全自动方式检测网页上的有效数据块。潜在数据块识别算法也将使用特征加权树匹配算法和特征分层过滤策略以更好地度量DOM树之间的相似度,进而识别出DOM树中的多个潜在数据块；进一步,该算法还综合考虑有效数据块所具有的各种特征,以过滤页面上的无效数据块。6)在数据记录分析识别的基础上,综合利用网页视觉、DOM树结构和数据内容特征,研究实现了记录内数据字段的分析和识别算法。该算法综合考虑DOM树中节点在页面上所具有的视觉特征、以及在DOM树上所具有的分布特征,并基于这些特征判断出节点是否可作为字段的开始节点,从而,识别出DOM树中的字段。在此基础上,进一步利用字段中的内容特征矫正字段的分析结果。最后,本文进行了测试实验以验证本文所提出的算法,并对实验结果进行了深入的分析。实验结果表明,本文提出的算法可以显著提高数据记录分析识别的效果。

全文目录

摘要  5-7
Abstract  7-11
第一章绪论  11-28
  1.1 Web信息抽取技术的发展背景  11-12
  1.2 Web信息抽取主要处理过程  12-14
  1.3 Web信息抽取相关研究工作与技术分类  14-20
    1.3.1 手工编写规则的方法  15-16
    1.3.2 基于用户交互的半自动化方法  16-17
    1.3.3 基于机器学习的自动化方法  17-20
  1.4 Web信息抽取技术的主要研究问题  20-22
  1.5 现有研究工作的不足  22-23
  1.6 本文研究工作  23-26
    1.6.1 研究思路  23-25
    1.6.2 本文主要研究内容  25-26
  1.7 本文组织结构  26-28
第二章精确Web信息抽取综合模型和页面自动分析技术  28-34
  2.1 结构分析自动化与用户交互半自动化的规则生成综合模型和方法  28-29
  2.2 面向精确Web信息抽取的自动化数据记录分析技术  29-33
    2.2.1 页面的信息分类  30-31
    2.2.2 自动化页面分析技术  31-33
  2.3 本章小结  33-34
第三章简单树匹配算法简介  34-39
  3.1 基本概念  34-35
    3.1.1 HTML简介  34-35
    3.1.2 DOM简介  35
  3.2 DOM树相似度算法  35-38
  3.3 本章小结  38-39
第四章数据记录自动分析和识别技术  39-49
  4.1 HTML文档与节点特征体系  39-40
  4.2 基于基本特征的加权树匹配算法  40-43
    4.2.1 算法的基本思路  40-41
    4.2.2 算法的计算过程  41-43
  4.3 基于分类特征的分层过滤匹配策略  43-44
  4.4 数据块/数据记录识别算法  44-47
  4.5 数据块过滤算法  47-48
  4.6 本章小结  48-49
第五章记录中的字段分析和识别技术  49-58
  5.1 记录间的数据对齐  49-50
  5.2 基于视觉和DOM树的字段分析算法  50-53
    5.2.1 纵向特征  51-52
    5.2.2 横向特征  52
    5.2.3 字段开始节点识别  52-53
  5.3 基于内容特征的字段矫正算法  53-55
  5.4 字段分析结果的表示以及到抽取规则的生成转换  55-57
  5.5 本章小结  57-58
第六章实验与分析  58-63
  6.1 实验数据  58
  6.2 实验结果及分析  58-62
    6.2.1 记录识别实验  58-60
    6.2.2 数据块识别实验  60-61
    6.2.3 字段识别实验  61-62
  6.3 实验小结  62-63
第七章总结与展望  63-65
  7.1 本文总结  63-64
  7.2 进一步工作  64-65
参考文献  65-69
致谢  69-70

面向精确Web信息抽取的自动数据记录分析和识别技术研究

内容摘要

全文目录

相似论文