学位论文 > 优秀研究生学位论文题录展示
Deep Web集成系统中同类主题数据源选择方法研究
作 者: 桑银邦
导 师: 王成良
学 校: 重庆大学
专 业: 计算机软件与理论
关键词: 重复度估计 质量指标 Deep Web 数据源选择 质量评估模型
分类号: TP311.13
类 型: 硕士论文
年 份: 2011年
下 载: 22次
引 用: 0次
阅 读: 论文下载
内容摘要
使用Deep Web集成系统获取隐藏在数据库中的高质量数据成为人们获取信息的重要途径之一。由于Deep Web集成系统查询信息时需从Web上海量的数据源获取信息,因而系统获取信息所花费的代价随Web上数据源的增加而增加,同时这些数据源质量参差不齐,存在不能高效地为用户从数据源中获取高质量数据的不足。在研究利用数据源质量指标来选择高质量数据源的基础上,本文提出了同类主题的Deep Web数据源选择方法,该方法通过数据源差异性分析可有效判断出新数据源的内容与集成系统中已有内容的重复度,在此基础上利用表示数据源质量特征的准确性、时序性、权威性和数据源大小等质量指标从不同角度来评估数据源的质量。本文主要工作包括:①对Deep Web技术的研究背景、国内外研究现状、实际应用意义、领域知识和Deep Web集成框架相关技术进行了阐述和分析。②运用改进的数据源重复度估算方法获取三个及以上同类主题数据源的重复度。首先为数据源中的记录选择关键属性集合,然后采用编辑距离方法实现单个数据源中的记录与集成系统中同类数据源的记录在对应属性上进行值的比较,最后使用FR(Frequent Records)方法获取单个数据源与集成系统中同类数据源集的内容重复度,改善了传统方法只研究两个同类主题数据源的重复度的不足。③在查询结果集中,改进了记录相关性判别方法。通过探测查询等方式获取同类主题数据源查询结果集中重复记录出现的频率,若该频率超过给定阈值,则记录与查询相关。该方法能随阈值地变化而获取不同数量的相关性记录,并且消除了传统的记录相关性判别方法受查询接口属性类型限制的影响。④针对当前Deep Web数据源质量评估时存在客观真实性差和准确性低等不足,本文采用准确性、时序性、数据源大小、权威性这4个质量指标,建立数据源质量估计模型来获得Deep Web数据源的质量,从而为用户查询选择质量最高的N个Deep Web数据源。在主流图书类网站上的实验结果表明,本文所提方法不仅可以减少系统的负担,也能有效地为同类主题数据源进行质量评估,从而获取质量较高的同类数据源。
|
全文目录
中文摘要 3-4 英文摘要 4-8 1 绪论 8-15 1.1 课题研究背景及意义 8-10 1.2 国内外研究现状 10-13 1.3 本文主要研究内容及结构 13-14 1.3.1 研究内容 13-14 1.3.2 本文组织结构 14 1.4 本章小结 14-15 2 Deep Web 集成框架相关技术 15-20 2.1 领域知识 15 2.1.1 领域知识概念 15 2.1.2 领域知识获取 15 2.2 面向领域的Deep Web 集成框架 15-17 2.3 Deep Web 查询接口集成 17-18 2.4 Deep Web 查询处理 18 2.5 Deep Web 查询结果处理 18-19 2.6 本章小结 19-20 3 Deep Web 数据源重复度估算方法研究 20-28 3.1 引言 20 3.2 Deep Web 数据源重复度估算方法 20-23 3.2.1 文本数据库重复度估算方法 20-21 3.2.2 关系数据库重复度估算方法 21-23 3.3 改进的Deep Web 数据源重复度估算方法 23-27 3.3.1 重复记录识别 23-24 3.3.2 FR 算法 24-27 3.4 本章小结 27-28 4 Deep Web 数据源质量选择方法研究 28-39 4.1 引言 28 4.2 查询相关度计算方法 28-33 4.2.1 查询接口分析 28-29 4.2.2 数值型相关度距离计算 29-31 4.2.3 改进的文本型相关度距离计算 31-33 4.2.4 改进的查询相关度算法 33 4.3 数据源质量评估方法 33-38 4.3.1 基于数据库检索性能的质量评估方法 33-34 4.3.2 改进的数据源质量评估方法 34-38 4.4 本章小结 38-39 5 实验分析及结果 39-49 5.1 数据集 39-40 5.2 Deep Web 数据源重复度估算实验 40-44 5.2.1 实验步骤及结果 40-43 5.2.2 实验结果讨论 43 5.2.3 与同类方法比较 43-44 5.3 Deep Web 数据源质量选择方法实验 44-48 5.3.1 实验步骤及结果 44-46 5.3.2 实验结果讨论 46 5.3.3 Kendall 系数 46-47 5.3.4 与同类方法比较 47-48 5.4 本章小结 48-49 6 总结与展望 49-51 6.1 全文总结 49-50 6.2 前景展望 50-51 致谢 51-52 参考文献 52-56 附录 56 A.作者在攻读学位期间发表的论文目录 56 B. 作者在攻读学位期间取得的科研成果目录 56
|
相似论文
- 20%毒死蜱微囊悬浮剂制备及质量检测方法研究,S482.3
- 河北省经济增长质量评价及对策研究,F224
- 卫生事业管理专业本科教学质量评估指标体系研究,R-4
- Deep Web数据清洗方法研究及应用,TP393.09
- Deep Web查询接口集成及搜索策略研究,TP393.09
- 基于领域知识的Deep Web接口发现研究,TP393.09
- Deep Web数据集成系统中数据标注研究,TP393.09
- Deep Web数据抽取及语义标注研究,TP393.09
- Deep Web数据库的选择研究,TP311.13
- 基于Web页面嵌套模式的包装器生成系统的设计与实现,TP393.092
- DWIIS系统中查询接口集成机制的研究,TP393.09
- Deep Web数据源发现和选择研究,TP393.09
- 基于DOM树的Deep Web实体抽取的研究与实现,TP393.09
- 基于结果模式的Deep Web数据抽取机制的研究,TP393.09
- 基于领域特征的两阶段查询接口抽取技术的研究与实现,TP393.09
- Deep Web环境下数据抽取及模式识别的研究,TP393.09
- Deep Web环境下查询松弛技术的研究,TP393.09
- 基于CPN网络的Deep Web集成系统中结果模式语义标注方法,TP393.09
- Deep Web下不确定数据处理的研究,TP311.13
- Deep Web数据源发现与采样研究,TP311.13
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机软件 > 程序设计、软件工程 > 程序设计 > 数据库理论与系统
© 2012 www.xueweilunwen.com
|