学位论文 > 优秀研究生学位论文题录展示
模板独立的网页信息抽取研究
作 者: 施洋
导 师: 黄萱菁
学 校: 复旦大学
专 业: 计算机应用技术
关键词: 网页信息抽取 机器学习 模板独立
分类号: TP393.092
类 型: 硕士论文
年 份: 2011年
下 载: 41次
引 用: 0次
阅 读: 论文下载
内容摘要
随着互联网上信息的迅猛增长,互联网信息己成为最为重要的知识库,人们每天在网络上提供了成千上万的信息,这些由用户创造的信息是十分具有价值的,人们也越来越迫切的希望通过各种方式来获取这些信息。因此使用网页信息抽取技术,自动地从网页中抽取用户感兴趣的信息是智能信息处理的一个重要的工作。这些信息抽取系统从互联网上抽取的信息不仅可以直接提供给用户,还可以作为构建智能查询系统和数据挖掘系统的基础,有着广阔的应用前景。目前,网页信息抽取技术的研究已成为国际上信息检索领域的研究热点之。本文首先研究了网页信息抽取的相关工作和各项关键技术,在数据表示方面,采用了Dom-Tree来将页面代码进行重新展示。以Dom-Tree的节点作为样本,通过视觉信息和人类设计感知为基础设计特征,来描述样本所代表的结构信息。然后介绍了网页信息抽取技术与相关技术的区别以及网页信息抽取中常见的分类方法,模板依赖的方法和模板独立的方法,通过介绍模板独立方法与模板依赖方法的特点,总结出两个方法的优缺点和适用范围。其次在具体的网页信息抽取任务中,我们研究了新闻页面抽取以及论坛类页面抽取的意义和目标。我们首先设计了一个解析器用以完成网页语料的解析、过滤以及标注等任务。然后根据模板独立的网贞信息抽取的特点建立了一个模板独立的网页信息抽取的框架,最后从网页语料的特点入手进行分析,分别对新闻语料和论文类语料建立模型,设计过滤模块、训练分类器、算法设计,并最终完成一个包装器的抽取过程。在中英文语料上的实验结果表明,在新闻与论文类页面的抽取精度F值分别可以达到96.7%和89.1%。通过对比实验表明,本文提出的抽取方法比当前主流的方法都更加高效,绝对结果也表明已经基本可以满足实用要求。
|
全文目录
目录 3-5 摘要 5-6 Abstract 6-7 第一章 引言 7-10 1.1 本文研究的背景 7-8 1.2 本文研究内容和意义 8 1.3 本文工作 8-9 1.4 本文的组织结构 9-10 第二章 研究现状及相关工作 10-23 2.1 网页信息抽取技术的概述 10-14 2.1.1 信息抽取技术的发展 10-11 2.1.2 网贞信息抽取研究现状 11-12 2.1.3 网页信息抽取系统分类 12-14 2.2 网页信息抽取与相关技术的差异 14-15 2.2.1 网页信息抽取与文本信息抽取的区别 14 2.2.2 网页信息抽取与信息检索的区别 14-15 2.2.3 网页信息抽取与自动文摘的区别 15 2.2.4 网页信息抽取与文本挖掘的区别 15 2.3 模板独立信息抽取的关键技术 15-22 2.3.1 中心向量分类器 16 2.3.2 K近邻算法 16-17 2.3.3 朴素贝叶斯分类器 17-18 2.3.4 AdaBoost方法 18-19 2.3.5 SVM支持向量机 19-21 2.3.6 CRF条件随机场 21-22 2.4 本章小结 22-23 第三章 模板独立的网页信息抽取 23-37 3.1 抽取模型框架 23-25 3.1.1 网页收集模块 24 3.1.2 网络过滤模块 24-25 3.1.3 分类判别模块 25 3.1.4 包装器提取模块 25 3.2 新闻类页面信息抽取模型 25-31 3.2.1 模型定义 25-28 3.2.2 分类器及特征 28-29 3.2.3 语义包装器 29-31 3.3 论坛类页面信息抽取模型 31-36 3.3.2 模型定义 31-32 3.3.3 Dom-Tree提取 32 3.3.4 信息块抽取算法 32-34 3.3.5 分类器及特征 34-35 3.3.6 边缘检测包装器 35-36 3.4 本章小结 36-37 第四章 实验及结果 37-46 4.1 评价标准 37 4.2 HTML Parser 37-39 4.2.2 采集与标注工具 38 4.2.3 网页过滤功能 38-39 4.3 新闻类页面信息抽取 39-41 4.3.1 数据集 39 4.3.2 新闻分类判别模块效率验证 39-40 4.3.3 S-Wrapper性能验证 40-41 4.4 论坛类页面信息抽取 41-44 4.4.1 数据集 41 4.4.2 信息块抽取算法验证 41-42 4.4.3 论坛分类判别模块效率验证 42-43 4.4.4 BD-Wrapper性能验证 43-44 4.5 本章小结 44-46 第五章 总结与展望 46-48 参考文献 48-52 攻读硕士学位期间参加的科研项目和发表的论文 52-53 致谢 53-54
|
相似论文
- 基于数据分布特征的文本分类研究,TP391.1
- 基于条件随机场的中文分词技术的研究与实现,TP391.1
- 领域知识指导的半监督学习和主动学习倾向性分类研究,TP181
- Android恶意软件静态检测方案的研究,TP309
- 监督主题模型的研究与应用,TP391.1
- 基于失真效应的图像质量评价与分类,TP391.41
- 基于学习的逆向运动学人体运动合成,TP391.41
- 基于内容的网页恶意代码检测的研究与实现,TP393.092
- 学术主页信息抽取系统的研究,TP393.092
- 社会化网络中的推荐算法及其应用,TP391.3
- 数据挖掘在邮件反垃圾系统中的应用,TP393.098
- 基于自学习的社会关系抽取的研究,TP391.1
- 基于统计与图模型的若干机器学习算法及其应用,TP181
- P2P流量识别方法研究,TP393.06
- 基于粗糙集和SVM的国防生综合素质测评方法研究,E075
- 基于SIFT特征和SVM的场景分类,TP391.41
- 基于稀疏编码与机器学习的图像内容识别算法研究,TP391.41
- 随机森林特征选择,TP311.13
- 互联网流量应用基准分类技术的研究,TP393.06
- 基于丰富特征和多核学习的蛋白质关系抽取,Q51
- 弥散张量成像的脑连接模式分析,R445.2
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 计算机网络 > 一般性问题 > 计算机网络应用程序 > 网络浏览器
© 2012 www.xueweilunwen.com
|