学位论文 > 优秀研究生学位论文题录展示

基于标签路径特征的Web新闻内容抽取研究

作　者: 吴共庆
导　师: 吴信东; 胡学钢
学　校: 合肥工业大学
专　业: 计算机应用技术
关键词: 信息抽取 Web新闻区分路径模式挖掘标签路径特征 NP-complete问题在线抽取
分类号: TP391.1
类　型: 博士论文
年　份: 2012年
下　载: 57次
引　用: 0次
阅　读: 论文下载

内容摘要

Web新闻内容抽取是Web智能信息处理过程中的一个非常重要的步骤,是情报获取与安全、网络舆情监测、移动终端个性化推荐服务、异构Web数据集成、信息检索、搜索引擎等研究与应用的基础。因此,面向Web新闻内容抽取领域中的相关问题开展研究,具有重要的研究和应用价值。实例分析和进一步研究发现,许多新闻网站具有类似的布局结构和风格,网页内容布局与其解析树的标签路径之间存在隐含的关联性。传统的路径表达式过于刚性,在Web信息抽取过程中难以适应HTML文档结构的细微变化,影响信息抽取的准确率；此外,Web新闻网页具有海量异构的特点,对手工构造包装器技术以及基于规则学习的包装器技术的通用性提出了挑战。为此,本文开展基于标签路径特征的Web新闻内容抽取研究,研究内容涉及两方面：面向特定网站,研究基于路径模式知识的高精度Web新闻内容抽取模型和方法；面向开放环境,研究基于标签路径特征的通用Web新闻内容抽取模型和方法。主要研究内容如下：(1)在研究网页内容布局与其解析树的路径模式之间存在隐含关联性的基础上,提出了一种新颖的Web信息抽取系统模型—基于区分路径模式的Web新闻内容抽取模型PP-WNE。在此基础上,定义了一种特殊的适用于Web新闻内容抽取的路径模式—区分路径模式,并提出一种区分路径模式挖掘方法,解决了抽取模式知识库的构建问题。以中文、英文网站上随机选取的网页为实验数据集,实验结果表明,通过采用合理设置的容噪阈值,基于路径模式挖掘的新闻网页内容抽取方法的F值可达到98%以上,同时也验证了路径模式应用于Web新闻内容信息抽取领域的可行性和有效性。(2)为解决基于路径模式的Web信息抽取模型PP-WNE中知识库规模的优化问题,提出区分路径模式覆盖问题,并证明了区分路径模式覆盖问题是一个NP-complete问题。为求解区分路径模式覆盖问题的近似最优解,定义了一种特殊的区分路径模式—极小区分路径模式,在此基础上,设计了一个求解区分路径模式覆盖问题的多项式时间(in|n|+1)近似算法MPM,其中,n为训练样本中正例的规模。在测试数据集上的实验结果表明,MPM算法可有效优化区分路径模式集,并且在节点级评估标准和文本级评估标准下均可达到98%以上的抽取精度、召回率和F值。(3)面向开放环境Web新闻内容抽取的需求,设计了一种文本标签路径比特征,描述了基于网页解析树节点遍历的文本标签路径比计算过程,提出基于文本标签路径直方图区分内容和非内容的阈值方法CEPR,有效地解决了在线Web新闻内容抽取的问题;提出了基于路径编辑距离的加权高斯平滑方法,有效地提高了CEPR算法在抽取短文本方面的能力,并解决了新闻内容中非新闻内容过滤的问题。CEPR是一种快速的、通用的、无需训练的网页内容抽取算法,可抽取多种来源、多种风格、多种语言的Web信息网页。在CleanEval测试数据集上的实验结果表明,大多数情况下,CEPR方法优于CETR等抽取方法。(4)设计并实现了一个HTML新闻网页过滤与总结系统NFaS。其中,提出并实现了一种基于URL特征、网页结构特征、内容属性特征相结合的Web新闻网页自动识别方法,有效地解决了Web新闻网页自动识别问题；采用Web新闻内容抽取技术,有效地解决了Web新闻网页过滤问题；采用一种基于词语语义联系的关键词抽取方法,通过词汇链构造词语语义联系图,抽取出高质量的关键词,完成Web新闻的总结任务。在测试数据集上的评估结果验证了NFaS系统的有效性。

全文目录

摘要  8-10
Abstract  10-12
致谢  12-19
第一章绪论  19-35
  1.1 Web信息抽取  19-24
    1.1.1 Web信息抽取的应用背景  19
    1.1.2 Web信息抽取技术发展历程  19-20
    1.1.3 Web信息抽取技术分类  20-23
    1.1.4 Web信息抽取技术面临的挑战  23-24
  1.2 Web新闻内容抽取  24-30
    1.2.1 Web新闻内容抽取任务  24-25
    1.2.2 Web新闻内容抽取的通用系统模型  25-26
    1.2.3 Web新闻内容抽取方法  26
    1.2.4 Web新闻内容抽取的评价体系  26-29
    1.2.5 语料及其标注  29-30
  1.3 主要研究工作  30-34
    1.3.1 课题来源  30
    1.3.2 Web新闻内容抽取存在的问题及本文研究思路  30-31
    1.3.3 相关概念与定义  31
    1.3.4 主要研究目标与研究内容  31-32
    1.3.5 科学意义与应用前景  32-33
    1.3.6 内容组织  33-34
  1.4 本章小结  34-35
第二章基于路径模式的WEB新闻抽取模型与方法  35-47
  2.1 概述  35
  2.2 基于路径模式的Web信息抽取系统模型与算法  35-37
    2.2.1 基于路径模式的Web信息抽取系统  35-36
    2.2.2 基于路径模式的Web信息抽取算法  36-37
  2.3 区分路径模式挖掘问题  37-39
  2.4 区分路径模式挖掘算法  39-42
    2.4.1 路径模式枚举树PE_tree  39-40
    2.4.2 基于PE_tree的区分路径模式挖掘算法APM  40-41
    2.4.3 基于前缀超模式剪枝策略的区分路径模式挖掘算法APM-P  41-42
  2.5 APM/APM-P算法性能评估与分析  42-44
    2.5.1 实验数据集与抽取性能评估指标  42
    2.5.2 容噪参数ε的设置  42-43
    2.5.3 与基于领域知识的抽取实验对比  43-44
    2.5.4 实验结果分析  44
  2.6 相关工作  44-45
  2.7 本章小结  45-47
第三章基于极小区分路径模式的WEB新闻内容抽取  47-65
  3.1 概述  47
  3.2 区分路径模式覆盖问题描述  47-49
    3.2.1 区分路径模式覆盖  47-48
    3.2.2 区分路径模式覆盖求解问题  48-49
  3.3 极小区分路径模式挖掘算法  49-53
    3.3.1 极小区分路径模式覆盖及其挖掘算法MPM  49-52
    3.3.2 MPM算法复杂性分析  52-53
  3.4 极小区分模式挖掘与新闻网页内容抽取评估  53-61
    3.4.1 实验数据集与抽取性能评估指标  53
    3.4.2 容噪参数ε的设置  53-57
    3.4.3 排序及剪枝策略评估  57-58
    3.4.4 不同语料间的交叉测试  58
    3.4.5 与基于领域知识的抽取实验对比  58-59
    3.4.6 与CETR抽取方法对比  59-60
    3.4.7 实验结果分析  60-61
  3.5 相关工作  61-64
  3.6 本章小结  64-65
第四章基于文本标签路径比的WEB新闻内容抽取  65-89
  4.1 概述  65-66
  4.2 基于标签路径特征的在线Web信息抽取系统模型  66-67
  4.3 文本标签路径比  67-76
    4.3.1 Web新闻网页DOM树与标签路径特征分析  67-69
    4.3.2 文本标签路径比的定义与计算过程  69-73
    4.3.3 扩展的文本标签路径比  73-76
  4.4 基于文本标签比的Web新闻内容抽取方法  76-79
    4.4.1 阈值  76
    4.4.2 基于标签路径编辑距离的加权高斯平滑  76-77
    4.4.3 抽取算法CEPR与实现细节  77-79
  4.5 参数设置与抽取性能评估  79-85
    4.5.1 实验数据集与抽取性能评估指标  79
    4.5.2 阈值参数兄的设置  79-80
    4.5.3 平滑调节参数α的设置  80-81
    4.5.4 CEPR算法抽取性能评估  81-83
    4.5.5 与CETR抽取方法的对比实验  83-84
    4.5.6 实验结果分析  84-85
  4.6 相关工作  85-87
  4.7 本章小结  87-89
第五章应用实例-HTML新闻网页过滤与总结系统  89-101
  5.1 概述  89-90
  5.2 NFaS系统架构  90-91
  5.3 NFaS系统组件介绍  91-97
    5.3.1 HTML新闻网页识别组件  91-93
    5.3.2 HTML新闻网页内容过滤组件  93-95
    5.3.3 HTML新闻网页内容总结组件  95-97
  5.4 系统运行效果评估  97-99
    5.4.1 系统运行界面  97-98
    5.4.2 系统性能评估结果  98-99
  5.5 相关工作  99-100
  5.6 本章小结  100-101
第六章总结与展望  101-105
  6.1 本文主要工作  101-102
  6.2 工作展望  102-105
参考文献  105-115
攻读博士学位期间参加研究的课题和发表的论文  115-118

基于标签路径特征的Web新闻内容抽取研究

内容摘要

全文目录

相似论文