学位论文 > 优秀研究生学位论文题录展示
Deep Web数据库的选择研究
作 者: 樊敬川
导 师: 袁方
学 校: 河北大学
专 业: 计算机软件与理论
关键词: Deep Web数据库 频繁查询 相关度 Apriori算法
分类号: TP311.13
类 型: 硕士论文
年 份: 2009年
下 载: 23次
引 用: 0次
阅 读: 论文下载
内容摘要
随着Internet相关技术的日益成熟,Web上积累了大量的在线数据库,其中所蕴含的信息对于用户来说是不可见的,称之为Deep Web。建立Deep Web数据集成系统是当前从Deep Web中获取信息的有效方式。为了提高信息检索的效率和查询的准确度,DeepWeb数据库的选择是建立Deep Web数据集成系统的一个必不可缺的环节。在Web数据库选择方面,本文主要是在设计代表性查询以获取Web数据库特征和针对特定查询对Web数据库进行排序两个方面做了重点研究。在获取Web数据库特征方面,文中根据领域知识构建初始查询词集合。由于查询词集合的动态更新性,随着用户的提交逐步建立起具有代表性的频繁查询词集合,并向各个本地Web数据库提交频繁查询词,通过分析Web数据库返回结果中出现查询词的位置和包含关系获取Web数据库的特征。在Web数据库排序方面,按照其特征对Web数据库返回结果进行分类,以每类返回结果与查询词的相关度和每类返回结果在全部Web数据库相应类别中所占的比例两者作为参数计算出整个Web数据库与查询词的相关度,按照相关度的大小对所有的Web数据库进行排序。在己排序的基础上,通过分析与查询词的完全相关结果增长率确定选择出的Web数据库个数阈值,从而获得既高效又准确的部分Web数据库。最后对于用户提交的新查询词,本文将前一步选择出的部分Web数据库作为输入,利用Apriori算法计算出最大频繁项集,即将最被频繁查询的Web数据库作为新查询词的默认Web数据库选择序列。实验表明,该方法能够有效的评估各个Web数据库对特定查询的支持能力。
|
全文目录
摘要 5-6 Abstract 6-9 第1章 绪论 9-17 1.1 研究背景与意义 9-10 1.2 Deep Web数据集成系统研究现状 10-12 1.3 Deep Web数据库选择的研究现状 12-14 1.4 研究内容 14-15 1.5 论文结构 15 1.6 本章小结 15-17 第2章 相关知识介绍 17-22 2.1 领域知识 17-18 2.1.1 领域知识概述 17 2.1.2 领域知识获取 17-18 2.2 相关度 18-19 2.3 Apriori算法 19-20 2.4 Web信息抽取技术 20-21 2.5 本章小结 21-22 第3章 Deep Web数据库的选择 22-32 3.1 构建初始查询词集合 22-23 3.2 构建频繁查询词集合 23-24 3.3 Deep Web数据库排序 24-28 3.3.1 Deep Web数据库查询结果分类 24-27 3.3.2 查询相关度 27-28 3.4 Web数据库个数阈值确定 28-29 3.5 新查询词Deep Web数据库选择策略 29-30 3.6 本章小结 30-32 第4章 实验与分析 32-40 4.1 数据集 32-33 4.2 实验结果与分析 33-38 4.3 本章小结 38-40 第5章 总结与展望 40-41 参考文献 41-44 攻读硕士学位期间科研工作情况 44-45 致谢 45
|
相似论文
- 基于数据挖掘的税务稽查选案研究,F812.42
- 关联规则算法在高职院校贫困生认定工作中的应用,G717
- Web使用挖掘与网页个性化服务推荐研究,TP311.13
- 数据挖掘在学校管理和学生培养中的应用,TP311.13
- 基于关联规则的结构化浏览技术及其应用,TP391.41
- 数据挖掘技术在独立学院教学评估中的应用研究,TP311.13
- 通信行为指纹研究,TP311.13
- 面向教育新闻的主题爬虫设计与实现,TP391.3
- SMBSDD:一种改进的非结构化P2P网络搜索机制,TP393.02
- 数据挖掘在学生评价系统中的应用,TP311.13
- 高校图书馆管理系统的个性化服务的设计与实现,TP311.52
- 基于数据挖掘的入侵检测技术的研究,TP393.08
- 关联规则算法及其在智能药房系统中的应用研究,TP311.13
- 基于中文维基百科的语义相关度计算的研究与实现,TP391.1
- 关联规则挖掘的改进算法在入侵检测中的应用,TP311.13
- 频繁项挖掘算法及其应用研究,TP311.13
- 基于矩阵的加权关联规则挖掘算法研究,TP311.13
- P2P环境下基于信任的访问控制研究,TP393.08
- 基于贝叶斯理论的网络流量分类研究,TP393.06
- 关联规则在高校图书馆读者数据处理中的应用研究,TP311.13
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机软件 > 程序设计、软件工程 > 程序设计 > 数据库理论与系统
© 2012 www.xueweilunwen.com
|