学位论文 > 优秀研究生学位论文题录展示
基于多特征的Web页面分块算法MFPS的研究与实现
作 者: 于建家
导 师: 张斌
学 校: 东北大学
专 业: 计算机应用技术
关键词: Web信息抽取 Web页面分块 多特征分析 相似块识别 页面类型识别
分类号: TP393.092
类 型: 硕士论文
年 份: 2008年
下 载: 24次
引 用: 1次
阅 读: 论文下载
内容摘要
随着互联网的快速发展,Web已成为人们获取信息的重要来源。为了满足人们不断增长的从互联网上获取信息的需求,Web信息抽取技术不可避免地成为当今研究的技术热点。由于互联网上的Web页面往往具有多样性、不规范性、包含信息复杂以及半结构化等特性,这些特性为Web信息抽取技术带来了很大的困难。如何使Web信息抽取技术不受Web页面特性影响而具有通用性,并能精确地抽取页面信息成为Web信息抽取技术亟待解决的问题。在对复杂的Web页面进行信息抽取的过程中,Web页面分块技术成为目前研究的一个方向。然而,目前的Web页面分块算法多数利用单一特征信息对Web页面进行分块,不能很好地应对复杂多变的Web页面类型。针对这种情况,本文提出了基于多特征的Web页面分块算法,该算法先将Web页面分成若干个相互独立的语义块,再根据应用的需要,从中选取具有相应语义特征的语义块进行信息抽取。本文首先分析了Web页面中的布局特征、显示特征、语义特征和文档结构特征等多特征信息,建立了基于多特征的Web页面语义块模型。在此基础上,本文提出了基于多特征的Web页面分块算法MFPS,并阐述了MFPS分块算法的基本思想和执行过程。然后,本文重点阐述了MFPS分块算法的实现,其中分析并解决了相似块识别的问题,阐述了包括单行类型、多行类型、多块类型、行块交替类型等类型的结点序列的合并方法,给出了包括语义类型、分割类型、多特征信息的识别方法,给出了MFPS分块算法的形式化描述,并对MFPS分块算法的性能做了分析。最后,本文提出了以MFPS分块算法为基础的基于块的重要度的页面类型识别算法PTIBID,该方法通过分析MFPS分块算法得到的语义块结构及多特征信息,能够有效地识别页面类型并抽取出其中的信息属性,以满足实际Web信息抽取的需要。实验结果表明,与现有的分块算法相比,MFPS分块算法具有分块精度较高、分块结构较为合理、适应能力较强等特点,可以为Web信息抽取技术提供有效的支持。
|
全文目录
摘要 5-6 ABSTRACT 6-10 第一章 绪论 10-14 1.1 研究背景 10-11 1.2 研究目标 11-12 1.3 本文工作 12-14 第二章 研究基础 14-22 2.1 Web信息抽取技术 14-16 2.1.1 Web信息抽取 14 2.1.2 Web信息抽取技术的分类 14-16 2.2 Web页面特性 16-19 2.2.1 信息聚合特性 16-17 2.2.2 信息复杂性 17 2.2.3 半结构化特性 17-18 2.2.4 多样性与非规范性 18 2.2.5 布局方式的灵活性 18-19 2.3 Web页面分块技术 19-22 2.3.1 HTML标签分析法 19 2.3.2 DOM树分析法 19-20 2.3.3 其他方法 20-21 2.3.4 Web页面分块技术的应用 21-22 第三章 基于多特征的WEB页面分块算法 22-36 3.1 Web页面特征分析 22-29 3.1.1 布局特征分析 22-24 3.1.2 显示特征分析 24-26 3.1.3 语义特征分析 26-28 3.1.4 文档结构特征分析 28-29 3.2 基于多特征的语义块模型 29-32 3.3 基于语义块模型的MFPS分块算法 32-36 3.3.1 算法思想 32 3.3.2 MFPS分块过程 32-36 第四章 MFPS分块算法的实现 36-56 4.1 相似块的识别方法 36-38 4.2 结点序列的合并方法 38-44 4.2.1 单行类型的合并 38-39 4.2.2 多行类型的合并 39-41 4.2.3 多块类型的合并 41-43 4.2.4 行块交替类型的合并 43-44 4.3 分割类型的识别方法 44-45 4.4 语义类型的识别方法 45-50 4.4.1 文本类型的识别 46-47 4.4.2 图片类型的识别 47 4.4.3 文本链接类型的识别 47-48 4.4.4 图片链接类型的识别 48-49 4.4.5 表单类型的识别 49-50 4.4.6 普通类型的识别 50 4.5 多特征信息的识别方法 50-51 4.6 MFPS分块算法的基本实现 51-53 4.7 性能分析 53-56 第五章 基于MFPS分块算法的页面类型识别与信息属性的抽取 56-74 5.1 面向主题的块的重要度分析 56-66 5.1.1 面向主题的块的重要度 56-58 5.1.2 分隔条检测 58-63 5.1.3 块的重要度的计算算法 63-66 5.2 新闻页面识别与信息属性的抽取 66-70 5.2.1 新闻页面识别算法 67-68 5.2.2 信息属性的抽取 68 5.2.3 实验结果 68-70 5.3 导航页面识别与信息属性的抽取 70-74 5.3.1 导航页面识别算法 70-71 5.3.2 信息属性的抽取 71-72 5.3.3 实验结果 72-74 第六章 结论 74-76 参考文献 76-80 致谢 80
|
相似论文
- 网页属性抽取的方法研究,TP391.1
- 网络舆情数据获取与话题分析技术研究,TP393.09
- 基于DOM的Web信息抽取系统设计与实现,TP393.09
- 基于Web的股评观点倾向性分析研究,TP391.1
- 面向领域的半结构化Web信息抽取技术,TP391.1
- 基于数据处理中心的企业竞争情报系统研究,F272
- 基于页面分块的Web档案构建技术研究,TP393.09
- 基于Web的竞争信息抽取研究,TP391.1
- 基于多维语义的互联网药品信息抽取的研究与应用,TP393.09
- 基于“中国科技论文在线”的用户关注度分析及个性化研究,TP18
- 基于HTML的Web信息抽取技术的研究与应用,TP393.09
- 基于领域本体的Web信息抽取技术研究,TP391.1
- 面向Web的图书信息抽取方法与实现,TP311.52
- 电子产品自动搜索比价系统设计与实现,TP311.52
- 基于Web信息自动抽取的英语题库生成算法研究,TP393.09
- 基于本体的旅游领域Web信息抽取,TP391.11
- WEB信息抽取的研究,TP391.1
- 网页事件信息抽取研究,TP393.092
- 基于条件随机域的Web信息抽取研究,TP393.09
- 基于Deep Web的网络信息抽取技术研究,TP393.09
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 计算机网络 > 一般性问题 > 计算机网络应用程序 > 网络浏览器
© 2012 www.xueweilunwen.com
|