学位论文 > 优秀研究生学位论文题录展示

Deep Web数据源发现和选择研究

作 者: 李妹芳
导 师: 申德荣
学 校: 东北大学
专 业: 计算机应用技术
关键词: Deep Web 领域 数据源发现 数据源选择 Top-k 属性支配模式增长算法 共现
分类号: TP393.09
类 型: 硕士论文
年 份: 2008年
下 载: 37次
引 用: 0次
阅 读: 论文下载
 

内容摘要


随着Internet信息的迅速增长,Deep Web数据资源的数量急剧增加。然而,这些数据信息只能通过动态查询响应来获取,不容易被传统的搜索引擎如Google、百度搜索到,因此并未得到充分的利用。因此,探索和研究支持Deep Web查询搜索引擎从而满足实际用户的广泛需求,成为信息领域研究的重点。由于Deep Web的自身特点,实现其数据资源集成在技术上存在很大难度。为了发现和集成这些Deep Web资源,本文首先分析了Deep Web国内外研究现状,提出了Deep Web数据集成系统框架,分析了其主要的四种机制:知识库构建机制、查询处理机制、查询转换机制和结果集成机制,并阐述了Deep Web集成的难点。其次,本文阐述了Deep Web爬虫框架,通过分析接口类型和表单处理机制,包括表单解析、表单特征提取、表单模式匹配和表单聚类和分类,结合数据源接口发现四层模型,提出了基于领域的表单爬虫框架DeepRunner,提出基于领域的Deep Web数据源发现算法DOER来获取领域数据源。本文从理论上阐述Deep Web的属性分布和问题描述,分析了Top-k查询技术和主流算法,结合Top-k算法的优点,提出了基于属性支配模式增长算法的Top-k数据源选择策略,并且结合属性间共现度特征,进一步改进算法,提高了算法执行的查准率和查全率,从而提高了用户查询服务的质量。最后,本文阐述Deep Web查询转换和查询结果集成机制。实验表明,本文的DeepRunner框架可以获取Deep Web领域数据源,验证了其可行性;通过大量的实验数据,本文验证了基于领域的数据源发现算法DOER的优越性,也证明了基于属性支配模式增长算法的Top-k数据源选择算法及其改进算法的有效性,尤其在大规模数据集成中,这两种算法效率显著高于传统的Top-k数据源选择策略。

全文目录


摘要  5-6
Abstract  6-9
第一章 绪论  9-17
  1.1 研究背景  9-10
  1.2 国内外研究现状  10-14
    1.2.1 Deep Web数据源发现和选择  10-11
    1.2.2 Deep Web模式抽取  11-12
    1.2.3 Deep Web模式匹配  12
    1.2.4 Deep Web结构化数据抽取  12
    1.2.5 Deep Web实例信息预处理  12-13
    1.2.6 Deep Web数据整合  13-14
    1.2.7 国内相关研究  14
  1.3 本文研究内容  14-15
  1.4 论文结构  15-17
第二章 Deep Web数据集成概述  17-23
  2.1 Deep Web简介  17-18
  2.2 Deep Web数据集成系统框架  18-21
    2.2.1 知识库构建机制  18-19
    2.2.2 查询处理机制  19
    2.2.3 查询转换机制  19-21
    2.2.4 结果集成机制  21
  2.3 Deep Web集成的难点  21-22
  2.4 本章小结  22-23
第三章 Deep Web数据源发现  23-41
  3.1 相关研究  23-25
  3.2 Deep Web爬虫框架  25-26
  3.3 Deep Web接口发现  26-28
    3.3.1 接口类型  26-27
    3.3.2 接口识别  27-28
  3.4 表单处理机制  28-34
    3.4.1 表单解析  28-32
    3.4.2 表单特征提取  32-33
    3.4.3 表单模式匹配  33-34
    3.4.4 表单聚类与分类  34
  3.5 基于领域的Deep Web数据源发现  34-40
    3.5.1 接口发现四层模型  34-35
    3.5.2 基于领域的表单爬虫框架  35-36
    3.5.3 基于领域的Deep Web数据源发现算法  36-40
  3.6 本章小结  40-41
第四章 Deep Web Top-k数据源选择  41-57
  4.1 相关研究  41-45
    4.1.1 Deep Web数据源选择  41-42
    4.1.2 Top-k数据源选择  42-45
  4.2 Deep Web数据源选择方法  45-46
  4.3 Deep Web的属性分布和问题描述  46-47
  4.4 传统的Top-k数据源选择方法  47-48
  4.5 基于属性支配模式增长算法的Top-k数据源选择  48-54
    4.5.1 相关定义和性质  48-50
    4.5.2 属性支配模式增长算法  50-52
    4.5.3 Top-k数据源排序  52-54
  4.6 结合共现度的数据源选择  54-55
  4.7 本章小结  55-57
第五章 实验分析和性能评价  57-63
  5.1 实验数据和实现  57-58
  5.2 实验结果分析  58-62
  5.3 本章小结  62-63
第六章 总结与展望  63-65
  6.1 本文主要工作  63
  6.2 今后的工作  63-65
参考文献  65-73
致谢  73-75
攻硕期间科研及发表论文情况  75-76

相似论文

  1. 社会行为与建筑空间的关联性研究,TU-024
  2. 居住区中心绿地开放性设计研究,TU985.125
  3. 基于Web的领域词典构建技术研究,TP391.1
  4. 非体育领域商品广告中运动项目元素分析,G80-05
  5. 广东罗坑鳄蜥性二型性及咬力研究,Q958.1
  6. 基于OSGi的领域内框架扩展方法研究及应用,TP311.5
  7. 千岛湖岛屿社鼠的巢区和领域研究,Q958.1
  8. 基于多元智能理论的幼儿数学能力发展研究,G613.4
  9. 五个学习领域对河南省中学体育教师教学行为的影响研究,G633.96
  10. 基于微博构建的公共领域研究,G206
  11. 德国高等职业教育课程设置研究,G712.3
  12. 一种基于领域本体的语义Web服务匹配和组合方法,TP393.09
  13. C/S模式MIS软件可复用构件的研究与开发,TP311.52
  14. 混合重叠社区发现研究及应用,D669.3
  15. 规划识别在监测股市个股主力资金流向中的应用,TP18
  16. 八年级学生解决数与代数应用问题能力研究,G633.6
  17. 基于领域本体的海洋环境数据仓库设计,TP311.13
  18. 数据空间中数据资源之间关联关系发现模型研究,TP311.13
  19. 知识共享和著作权制度的未来模式,D923.41
  20. 多媒体个性化建模与检索,TP391.3
  21. 基于Modelica/Mworks的混凝土泵车建模及仿真研究,TU646

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 计算机网络 > 一般性问题 > 计算机网络应用程序
© 2012 www.xueweilunwen.com