学位论文 > 优秀研究生学位论文题录展示
基于Deep Web的网络信息抽取技术研究
作 者: 王培正
导 师: 吴一民;张志强
学 校: 华南理工大学
专 业: 软件工程
关键词: Deep Web 信息抽取 树节点 数据区域 DOM
分类号: TP393.09
类 型: 硕士论文
年 份: 2010年
下 载: 88次
引 用: 0次
阅 读: 论文下载
内容摘要
在信息化时代,获得信息的途径越来越多。互联网作为信息的载体,在传播效率和信息容量方面都有无可替代的地位。但是随着信息量的增加,用户在互联网上获得真正所需信息的变得越来越困难。搜索引擎的出现改善了目前的状况,但是用户想要获得专业化的信息仍然不够方便。目前,页面中的信息大都保存在网站的后台数据库中,这些数据必须通过数据库访问技术才能访问到。因此针对页面的信息抽取技术研究成为目前一个比较热门的方向。在Web信息抽取中,一般将整个Web分成两个领域:Surface Web和Deep Web,SurfaceWeb其实就是一般的通过点击HTML中的链接访问到的网页,Deep Web是通过特定的数据库访问技术查询后台数据库从而动态生成的页面。Deep Web的信息在一定程度上是通过模板生成的,所以它的数据呈现了一种结构化的性质。同时,在垂直搜索引擎中,结构化或半结构化的信息抽取技术是其实现的关键技术之一。而垂直搜索其实搜索的领域就是基于Deep Web网络的。目前,对这些数据的抽取都是利用包装器产生的,在包装器生成过程中,需要对网页分析并生成针对该网页的抽取规则。在分析网页时多余的“非主要数据”信息参与生成抽取规则不仅会影响包装器抽取的效率,而且影响结果的准确性。本文提出了对HTML页面进行数据区域划分的思想。将HTML页面分成主要数据区域和非主要数据区域,然后利用HTML DOM树结构进行数据区域的识别和抽取。在数据区域识别中用到叶子节点相似度的特点对HTML DOM树中的节点进行层次的划分;在数据块的抽取中,对节点之间的关系再次比较,如果满足节点的相似度问题,那么就可以知道数据块的位置区域。在最终的数据位置,也就是数据项的识别上本文利用了HTML树编辑距离算法对树进行编辑距离匹配,最终选出最好的数据项节点,然后将节点中的信息抽取出来。总之,本文是通过对整个网页DOM树上同层次的各个节点的比较,将具有相似节点特征的联合节点进行划分,分成若干相似的数据区域,构成抽取各条信息的简单树结构。然后按照Deep Web数据的特点制定抽取规则,从而提取方法树的结构化信息。实验结果表明该方法在一定程度上提高了数据抽取的效率和抽取的准确率的召回率。
|
全文目录
摘要 5-6 Abstract 6-9 第一章 绪论 9-14 1.1 研究背景 9-10 1.2 国内外研究现状 10-12 1.3 论文的主要研究工作 12 1.4 论文的组织结构 12-14 第二章 Web 信息抽取概述 14-20 2.1 Web 信息抽取的概念 14 2.2 Web 信息抽取技术的分类 14-18 2.2.1 人为手工编写抽取规则的Web 信息抽取方法 14-15 2.2.2 半自动的Web 信息抽取方法 15-17 2.2.3 全自动的Web 信息抽取方法 17-18 2.3 各种信息抽取技术的比较 18-19 2.4 本章小结 19-20 第三章 相关技术 20-29 3.1 HTML 技术 20-21 3.2 XML 技术 21-24 3.3 XHTML 技术 24 3.4 XPath 技术 24-25 3.5 XSLT 技术 25-26 3.6 正则表达式 26-27 3.7 DOM 技术 27-28 3.8 本章小结 28-29 第四章 基于Deep Web 的半结构化信息抽取方法 29-50 4.1 Deep Web 数据特点分析 29-30 4.2 HTML 页面预处理 30-35 4.2.1 HTML 网页信息清洗 31-33 4.2.2 HTML 的DOM 树生成 33-35 4.3 数据区域识别 35-43 4.3.1 相关概念 35-37 4.3.2 叶子节点相似度 37-39 4.3.3 基于相似度的层次划分算法 39-43 4.4 数据块提取 43-45 4.5 数据项抽取 45-48 4.5.1 基于树匹配的编辑算法 46-47 4.5.2 基于树匹配的数据项发现算法 47-48 4.6 本章小结 48-50 第五章 Deep Web Extractor 系统的设计与实现 50-55 5.1 系统的设计目标 50 5.2 系统的架构 50-51 5.3 系统的实现 51-53 5.4 实验结果分析 53-54 5.5 本章小结 54-55 结束语 55-56 参考文献 56-58 攻读硕士学位期间取得的研究成果 58-59 致谢 59
|
相似论文
- 领域实体属性及事件抽取技术研究,TP391.1
- 时间表达式识别与归一化研究,TP391.1
- 网页属性抽取的方法研究,TP391.1
- 英文文本中命名实体识别及关系抽取技术研究,TP391.1
- 基于Webkit的移动Widget引擎研究与实现,TP391.3
- 构件垂直搜索引擎的关键技术研究,TP391.3
- 面向教育新闻的主题爬虫设计与实现,TP391.3
- 基于GPU图像搜索中文本检索的关键技术研究,TP391.1
- 学术主页信息抽取系统的研究,TP393.092
- 主题搜索引擎关键技术研究,TP391.3
- 一种基于动态学习框架的全自动网页结构化数据抽取方法,TP393.092
- 基于自然语言打印机人机交互方法研究与实现,TP11
- 城市化进程中的能源消耗响应机制研究,F299.2;F206
- 模板独立的网页信息抽取研究,TP393.092
- 面向互联网的多元信息获取技术研究,TP393.09
- Deep Web集成系统中同类主题数据源选择方法研究,TP311.13
- Deep Web数据清洗方法研究及应用,TP393.09
- 网络舆情数据获取与话题分析技术研究,TP393.09
- 基于DOM的Web信息抽取系统设计与实现,TP393.09
- 面向OA期刊检索结果页面的信息抽取方法研究,TP393.092
- Deep Web查询接口集成及搜索策略研究,TP393.09
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 计算机网络 > 一般性问题 > 计算机网络应用程序
© 2012 www.xueweilunwen.com
|