学位论文 > 优秀研究生学位论文题录展示
Deep Web数据源发现和选择研究
作 者: 李妹芳
导 师: 申德荣
学 校: 东北大学
专 业: 计算机应用技术
关键词: Deep Web 领域 数据源发现 数据源选择 Top-k 属性支配模式增长算法 共现
分类号: TP393.09
类 型: 硕士论文
年 份: 2008年
下 载: 37次
引 用: 0次
阅 读: 论文下载
内容摘要
随着Internet信息的迅速增长,Deep Web数据资源的数量急剧增加。然而,这些数据信息只能通过动态查询响应来获取,不容易被传统的搜索引擎如Google、百度搜索到,因此并未得到充分的利用。因此,探索和研究支持Deep Web查询搜索引擎从而满足实际用户的广泛需求,成为信息领域研究的重点。由于Deep Web的自身特点,实现其数据资源集成在技术上存在很大难度。为了发现和集成这些Deep Web资源,本文首先分析了Deep Web国内外研究现状,提出了Deep Web数据集成系统框架,分析了其主要的四种机制:知识库构建机制、查询处理机制、查询转换机制和结果集成机制,并阐述了Deep Web集成的难点。其次,本文阐述了Deep Web爬虫框架,通过分析接口类型和表单处理机制,包括表单解析、表单特征提取、表单模式匹配和表单聚类和分类,结合数据源接口发现四层模型,提出了基于领域的表单爬虫框架DeepRunner,提出基于领域的Deep Web数据源发现算法DOER来获取领域数据源。本文从理论上阐述Deep Web的属性分布和问题描述,分析了Top-k查询技术和主流算法,结合Top-k算法的优点,提出了基于属性支配模式增长算法的Top-k数据源选择策略,并且结合属性间共现度特征,进一步改进算法,提高了算法执行的查准率和查全率,从而提高了用户查询服务的质量。最后,本文阐述Deep Web查询转换和查询结果集成机制。实验表明,本文的DeepRunner框架可以获取Deep Web领域数据源,验证了其可行性;通过大量的实验数据,本文验证了基于领域的数据源发现算法DOER的优越性,也证明了基于属性支配模式增长算法的Top-k数据源选择算法及其改进算法的有效性,尤其在大规模数据集成中,这两种算法效率显著高于传统的Top-k数据源选择策略。
|
全文目录
摘要 5-6 Abstract 6-9 第一章 绪论 9-17 1.1 研究背景 9-10 1.2 国内外研究现状 10-14 1.2.1 Deep Web数据源发现和选择 10-11 1.2.2 Deep Web模式抽取 11-12 1.2.3 Deep Web模式匹配 12 1.2.4 Deep Web结构化数据抽取 12 1.2.5 Deep Web实例信息预处理 12-13 1.2.6 Deep Web数据整合 13-14 1.2.7 国内相关研究 14 1.3 本文研究内容 14-15 1.4 论文结构 15-17 第二章 Deep Web数据集成概述 17-23 2.1 Deep Web简介 17-18 2.2 Deep Web数据集成系统框架 18-21 2.2.1 知识库构建机制 18-19 2.2.2 查询处理机制 19 2.2.3 查询转换机制 19-21 2.2.4 结果集成机制 21 2.3 Deep Web集成的难点 21-22 2.4 本章小结 22-23 第三章 Deep Web数据源发现 23-41 3.1 相关研究 23-25 3.2 Deep Web爬虫框架 25-26 3.3 Deep Web接口发现 26-28 3.3.1 接口类型 26-27 3.3.2 接口识别 27-28 3.4 表单处理机制 28-34 3.4.1 表单解析 28-32 3.4.2 表单特征提取 32-33 3.4.3 表单模式匹配 33-34 3.4.4 表单聚类与分类 34 3.5 基于领域的Deep Web数据源发现 34-40 3.5.1 接口发现四层模型 34-35 3.5.2 基于领域的表单爬虫框架 35-36 3.5.3 基于领域的Deep Web数据源发现算法 36-40 3.6 本章小结 40-41 第四章 Deep Web Top-k数据源选择 41-57 4.1 相关研究 41-45 4.1.1 Deep Web数据源选择 41-42 4.1.2 Top-k数据源选择 42-45 4.2 Deep Web数据源选择方法 45-46 4.3 Deep Web的属性分布和问题描述 46-47 4.4 传统的Top-k数据源选择方法 47-48 4.5 基于属性支配模式增长算法的Top-k数据源选择 48-54 4.5.1 相关定义和性质 48-50 4.5.2 属性支配模式增长算法 50-52 4.5.3 Top-k数据源排序 52-54 4.6 结合共现度的数据源选择 54-55 4.7 本章小结 55-57 第五章 实验分析和性能评价 57-63 5.1 实验数据和实现 57-58 5.2 实验结果分析 58-62 5.3 本章小结 62-63 第六章 总结与展望 63-65 6.1 本文主要工作 63 6.2 今后的工作 63-65 参考文献 65-73 致谢 73-75 攻硕期间科研及发表论文情况 75-76
|
相似论文
- 社会行为与建筑空间的关联性研究,TU-024
- 居住区中心绿地开放性设计研究,TU985.125
- 基于Web的领域词典构建技术研究,TP391.1
- 非体育领域商品广告中运动项目元素分析,G80-05
- 广东罗坑鳄蜥性二型性及咬力研究,Q958.1
- 基于OSGi的领域内框架扩展方法研究及应用,TP311.5
- 千岛湖岛屿社鼠的巢区和领域研究,Q958.1
- 基于多元智能理论的幼儿数学能力发展研究,G613.4
- 五个学习领域对河南省中学体育教师教学行为的影响研究,G633.96
- 基于微博构建的公共领域研究,G206
- 德国高等职业教育课程设置研究,G712.3
- 一种基于领域本体的语义Web服务匹配和组合方法,TP393.09
- C/S模式MIS软件可复用构件的研究与开发,TP311.52
- 混合重叠社区发现研究及应用,D669.3
- 规划识别在监测股市个股主力资金流向中的应用,TP18
- 八年级学生解决数与代数应用问题能力研究,G633.6
- 基于领域本体的海洋环境数据仓库设计,TP311.13
- 数据空间中数据资源之间关联关系发现模型研究,TP311.13
- 知识共享和著作权制度的未来模式,D923.41
- 多媒体个性化建模与检索,TP391.3
- 基于Modelica/Mworks的混凝土泵车建模及仿真研究,TU646
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 计算机网络 > 一般性问题 > 计算机网络应用程序
© 2012 www.xueweilunwen.com
|