学位论文 > 优秀研究生学位论文题录展示

基于DOM树的Deep Web实体抽取的研究与实现

作 者: 李冬
导 师: 申德荣
学 校: 东北大学
专 业: 计算机技术
关键词: 实体抽取 DOM树 Deep Web 数据区域定位 实体区域定位
分类号: TP393.09
类 型: 硕士论文
年 份: 2008年
下 载: 64次
引 用: 1次
阅 读: 论文下载
 

内容摘要


随着Internet的广泛应用,Web上的资源信息呈爆炸性增长。其中,Deep Web是指那些存储在Web数据库里、不能通过超链接访问而需要通过动态网页技术访问的资源集合。一些统计数据表明:Deep Web蕴含的信息量、对Deep Web的访问量、增长速度等都远远高于Surface Web。因此,随着Web数据库的不断增长,通过对Deep Web的访问逐渐成为获取信息的主要手段。Deep Web返回的查询结果主要是通过HTML页面来展现的,其内容多样、形式各异,这就造成了结果数据的异构性和缺乏结构性,使得自动从中获取有价值的信息变成一件具有挑战性的任务。因此,如何有效抽取Deep Web中的数据资源成为一个值得研究的问题,其目标是将查询获取的结果响应页面中所包含的实体信息正确而有效地抽取出来,并以结构化的形式进行表示。本文通过分析Deep Web结果页面的特点,提出了一种基于DOM树的Deep Web实体抽取机制(D-EEM, DOM-tree based Deep Web Entity Extraction Mechanism),能够有效解决Deep Web环境中的实体抽取问题。论文的主要内容包括如下几个方面:(1)结合手动实体抽取和自动实体抽取的应用需求,提出了D-EEM的层次模型,自底向上将D-EEM划分为信息采集层、实体抽取层和外部表示层,能够有效解决DeepWeb实体抽取中区域定位、规则生成及语义标注等问题。(2)提出了基于DOM树的自动实体抽取策略,利用DOM树中的文本内容和层次结构来确定数据区域和实体区域,提高了实体抽取的准确性;另外,提出了一种基于上下文距离和共现次数的语义标注方法,从而建立抽取结果与全局模式的映射关系,有效地将来自不同数据源的抽取结果进行合成。(3)设计并实现了D-EEM的原型系统,一方面为用户提供了一个交互式的编辑环境,友好的帮助用户完成抽取模板的手动设置;另一方面实现了基于DOM树的自动实体抽取策略,经过网页预处理、数据区域定位、实体区域定位、抽取规则生成及语义标注等过程,最终将网页上的有用数据以结构化的形式存储。(4)通过实验验证了D-EEM中所采用的关键技术的可行性和有效性,同其它实体抽取策略相比,D-EEM在功能完善性、抽取准确性及抽取效率等方面具有一定的优势。

全文目录


摘要  5-6
ABSTRACT  6-11
第1章 引言  11-17
  1.1 研究背景  11-12
  1.2 国内外研究动态  12-14
  1.3 本文研究的主要问题  14-15
  1.4 本文的组织结构  15-17
第2章 相关技术  17-23
  2.1 HTML  17
  2.2 XML  17-18
  2.3 HTML转换技术  18-19
    2.3.1 Tidy  18-19
    2.3.2 NekoHTML  19
  2.4 XML解析技术  19-21
    2.4.1 DOM  19-20
    2.4.2 XPath  20-21
    2.4.3 DOM4J  21
  2.5 本章小结  21-23
第3章 D-EEM的体系结构  23-29
  3.1 需求分析  23-25
    3.1.1 手动实体抽取  23-24
    3.1.2 自动实体抽取  24-25
  3.2 D-EEM的层次模型  25-26
  3.3 功能模块介绍  26-28
  3.4 本章小结  28-29
第4章 基于DOM树的自动实体抽取策略  29-45
  4.1 网页预处理  29-32
    4.1.1 HTML向XHTML的转换  29-30
    4.1.2 DOM树生成  30-32
  4.2 数据区域定位  32-35
    4.2.1 数据区域的特点  33-34
    4.2.2 基于聚集度的数据区域定位  34-35
  4.3 实体区域定位  35-40
    4.3.1 基本思想  35-36
    4.3.2 数据区域预处理  36-37
    4.3.3 子树匹配策略  37-38
    4.3.4 最佳频繁子树挖掘  38-40
  4.4 抽取规则生成  40-41
  4.5 语义标注  41-43
  4.6 本章小结  43-45
第5章 D-EEM原型系统的设计与实现  45-59
  5.1 开发环境  45
  5.2 开发技术  45-48
    5.2.1 J2EE开发平台  46
    5.2.2 MVC设计模式  46-47
    5.2.3 Struts框架  47-48
  5.3 关键模块的实现  48-58
    5.3.1 网页预处理模块的实现  48-50
    5.3.2 模板手动定义模块的实现  50-51
    5.3.3 区域自动定位模块的实现  51-54
    5.3.4 抽取规则生成模块的实现  54-55
    5.3.5 抽取引擎模块的实现  55-58
  5.4 本章小结  58-59
第6章 系统性能评估  59-67
  6.1 测试数据集  59
  6.2 执行代价  59-62
    6.2.1 区域自动定位的时间代价  59-61
    6.2.2 DERL与ERL策略的时间代价比较  61-62
  6.3 性能评估  62-65
    6.3.1 评价指标  62
    6.3.2 抽取性能评估  62-65
  6.4 本章小结  65-67
第7章 结束语  67-69
参考文献  69-73
致谢  73

相似论文

  1. Deep Web集成系统中同类主题数据源选择方法研究,TP311.13
  2. Deep Web数据清洗方法研究及应用,TP393.09
  3. Deep Web查询接口集成及搜索策略研究,TP393.09
  4. 基于领域知识的Deep Web接口发现研究,TP393.09
  5. Deep Web数据集成系统中数据标注研究,TP393.09
  6. Deep Web数据抽取及语义标注研究,TP393.09
  7. Deep Web数据库的选择研究,TP311.13
  8. 基于Web页面嵌套模式的包装器生成系统的设计与实现,TP393.092
  9. 基于区域定位的购物网站商品信息抽取方法,TP393.092
  10. DWIIS系统中查询接口集成机制的研究,TP393.09
  11. Deep Web数据源发现和选择研究,TP393.09
  12. 基于结果模式的Deep Web数据抽取机制的研究,TP393.09
  13. 基于领域特征的两阶段查询接口抽取技术的研究与实现,TP393.09
  14. Deep Web环境下数据抽取及模式识别的研究,TP393.09
  15. Deep Web环境下查询松弛技术的研究,TP393.09
  16. 基于CPN网络的Deep Web集成系统中结果模式语义标注方法,TP393.09
  17. 基于深度网页爬虫搜索引擎原型的研究和实现,TP391.3
  18. Deep Web下不确定数据处理的研究,TP311.13
  19. Deep Web数据源发现与采样研究,TP311.13
  20. 基于本体的深度搜索系统关键词库的构造与研究,TP391.3

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 计算机网络 > 一般性问题 > 计算机网络应用程序
© 2012 www.xueweilunwen.com