学位论文 > 优秀研究生学位论文题录展示

网页属性抽取的方法研究

作　者: 邓庆顺
导　师: 张学东
学　校: 辽宁科技大学
专　业: 计算机应用技术
关键词: Web信息抽取中文人名识别 Wrapper Wrapper失效检测
分类号: TP391.1
类　型: 硕士论文
年　份: 2012年
下　载: 14次
引　用: 0次
阅　读: 论文下载

内容摘要

Web信息的大量出现使得Web中存在的各种半结构化信息与日俱增。但是,Web中可访问到的信息大都以半结构化的html网页结构形式出现,无法被各种类型的应用程序直接获取和使用。所以,对于实现自动抽取html网页中半结构化数据的Web抽取技术已经成为当今的一个研究热点。研究人员进行了大量针对Web信息抽取的研究,并且出现了许多基于不同原理的Web信息抽取技术。根据实际需求,本文对新闻网页的作者识别问题和Wrapper失效检测问题做了深入研究,并尝试解决。本文的工作与贡献主要包含以下三方面:1.提出了一种新闻网页的作者识别机制:该机制在借鉴纯文本的中文姓名识别方法的基础上,结合中文姓名特征、新闻作者的上下文特征和网页的结构特征,并利用互信息理论,本文提出了新闻网页的中文作者识别机制。2.提出了一种Wrapper失效检测机制:基于Wrapper归纳的信息抽取方法是实际网络应用中常用的网络信息抽取方法。我们从实际应用需求出发,借鉴已有研究成果,提出了满足需求的Wrapper失效检测机制。该机制通过计算Wrapper抽取结果集中的各项属性的数字特征值概率来判断Wrapper是否失效。为后期Wrapper自动维护提供了必备的依据。3.为了满足实际应用的需求,本文基于新闻网页的中文作者识别机制以及其他算法开发了新闻网页的作者、来源抽取组件。该组件为后期的舆情分析提供了重要的基础数据。该组件已经应用于实际项目中,并取得了不错的效果。

全文目录

摘要  4-6
ABSTRACT  6-10
1. 绪论  10-18
  1.1 国内外研究现状  10-16
    1.1.1 Web 信息抽取  11-14
    1.1.2 中文姓名识别  14-15
    1.1.3 Wrapper 失效检测  15-16
  1.2 研究内容及意义  16-17
  1.3 论文的组织结构  17-18
2. 新闻网页的中文作者识别机制  18-34
  2.1 新闻网页中中文作者的特征场景  18-24
    2.1.1 中文姓名特征场景  18-21
    2.1.2 文本特征场景  21-22
    2.1.3 网页结构特征场景  22-24
  2.2 新闻网页的中文作者识别机制  24-31
    2.2.1 关键问题分析  25-30
    2.2.2 算法描述  30-31
  2.3 实验  31-33
    2.3.1 实验内容  31-32
    2.3.2 评价方法  32
    2.3.3 实验结果与分析  32-33
  2.4 小结  33-34
3.Wrapper 失效检测机制  34-59
  3.1 相关工作  34-37
    3.1.1 RAPTURE 算法  34-35
    3.1.2 基于机器学习技术的模式集合验证算法  35-37
  3.2 Wrapper 失效检测机制  37-43
    3.2.1 检测机制概述  37
    3.2.2 关键问题分析  37-41
    3.2.3 Wrapper 验证算法  41-42
    3.2.4 检测机制流程  42-43
  3.3 论坛帖子索引页面的Wrapper 失效检测机制  43-57
    3.3.1 Wrapper 验证算法  44-51
    3.3.2 检测样例的选取  51
    3.3.3 实验  51-57
  3.4 小结  57-59
4. 新闻网页的作者来源抽取HtmlSAE 组件  59-68
  4.1 组件的需求分析  59
  4.2 组件的处理流程  59-61
  4.3 组件的标准化  61-64
    4.3.1 组件标准化的目的  61
    4.3.2 Cmake  61-64
  4.4 组件的实现  64-65
  4.5 结果展示与分析  65-67
  4.6 小结  67-68
5. 总结与展望  68-71
  5.1 本文工作总结  68-69
  5.2 进一步研究方向  69-71
参考文献  71-77
致谢  77

相似论文

网络舆情数据获取与话题分析技术研究,TP393.09
基于DOM的Web信息抽取系统设计与实现,TP393.09
基于数据处理中心的企业竞争情报系统研究,F272
基于XML的异构数据源管理的研究,TP311.52
基于本体异构数据集成方法的研究,TP311.13
基于神经网络的Web信息抽取系统的研究与实现,TP311.52
基于WEB信息抽取的企业竞争情报系统研究,TP311.52
Web信息提取及知识发现方法研究,TP393.092
基于分类语义的Web信息检索系统,TP391.3
基于Mediator/Wrapper体系的分布式空间数据集成系统研究,TP311.13
基于领域知识的个性化购物比较系统的设计与实现,TP311.52
电子产品自动搜索比价系统设计与实现,TP311.52
基于HTML的Web信息抽取技术的研究与应用,TP393.09
基于“中国科技论文在线”的用户关注度分析及个性化研究,TP18
基于多维语义的互联网药品信息抽取的研究与应用,TP393.09
基于Web的竞争信息抽取研究,TP391.1
基于多特征的Web页面分块算法MFPS的研究与实现,TP393.092
面向领域的半结构化Web信息抽取技术,TP391.1
基于Web的股评观点倾向性分析研究,TP391.1
基于条件概率图模型的Deep Web数据抽取与集成研究,TP311.135.4