学位论文 > 优秀研究生学位论文题录展示

Deep Web数据库的选择研究

作 者: 樊敬川
导 师: 袁方
学 校: 河北大学
专 业: 计算机软件与理论
关键词: Deep Web数据库 频繁查询 相关度 Apriori算法
分类号: TP311.13
类 型: 硕士论文
年 份: 2009年
下 载: 23次
引 用: 0次
阅 读: 论文下载
 

内容摘要


随着Internet相关技术的日益成熟,Web上积累了大量的在线数据库,其中所蕴含的信息对于用户来说是不可见的,称之为Deep Web。建立Deep Web数据集成系统是当前从Deep Web中获取信息的有效方式。为了提高信息检索的效率和查询的准确度,DeepWeb数据库的选择是建立Deep Web数据集成系统的一个必不可缺的环节。在Web数据库选择方面,本文主要是在设计代表性查询以获取Web数据库特征和针对特定查询对Web数据库进行排序两个方面做了重点研究。在获取Web数据库特征方面,文中根据领域知识构建初始查询词集合。由于查询词集合的动态更新性,随着用户的提交逐步建立起具有代表性的频繁查询词集合,并向各个本地Web数据库提交频繁查询词,通过分析Web数据库返回结果中出现查询词的位置和包含关系获取Web数据库的特征。在Web数据库排序方面,按照其特征对Web数据库返回结果进行分类,以每类返回结果与查询词的相关度和每类返回结果在全部Web数据库相应类别中所占的比例两者作为参数计算出整个Web数据库与查询词的相关度,按照相关度的大小对所有的Web数据库进行排序。在己排序的基础上,通过分析与查询词的完全相关结果增长率确定选择出的Web数据库个数阈值,从而获得既高效又准确的部分Web数据库。最后对于用户提交的新查询词,本文将前一步选择出的部分Web数据库作为输入,利用Apriori算法计算出最大频繁项集,即将最被频繁查询的Web数据库作为新查询词的默认Web数据库选择序列。实验表明,该方法能够有效的评估各个Web数据库对特定查询的支持能力。

全文目录


摘要  5-6
Abstract  6-9
第1章 绪论  9-17
  1.1 研究背景与意义  9-10
  1.2 Deep Web数据集成系统研究现状  10-12
  1.3 Deep Web数据库选择的研究现状  12-14
  1.4 研究内容  14-15
  1.5 论文结构  15
  1.6 本章小结  15-17
第2章 相关知识介绍  17-22
  2.1 领域知识  17-18
    2.1.1 领域知识概述  17
    2.1.2 领域知识获取  17-18
  2.2 相关度  18-19
  2.3 Apriori算法  19-20
  2.4 Web信息抽取技术  20-21
  2.5 本章小结  21-22
第3章 Deep Web数据库的选择  22-32
  3.1 构建初始查询词集合  22-23
  3.2 构建频繁查询词集合  23-24
  3.3 Deep Web数据库排序  24-28
    3.3.1 Deep Web数据库查询结果分类  24-27
    3.3.2 查询相关度  27-28
  3.4 Web数据库个数阈值确定  28-29
  3.5 新查询词Deep Web数据库选择策略  29-30
  3.6 本章小结  30-32
第4章 实验与分析  32-40
  4.1 数据集  32-33
  4.2 实验结果与分析  33-38
  4.3 本章小结  38-40
第5章 总结与展望  40-41
参考文献  41-44
攻读硕士学位期间科研工作情况  44-45
致谢  45

相似论文

  1. 基于数据挖掘的税务稽查选案研究,F812.42
  2. 关联规则算法在高职院校贫困生认定工作中的应用,G717
  3. Web使用挖掘与网页个性化服务推荐研究,TP311.13
  4. 数据挖掘在学校管理和学生培养中的应用,TP311.13
  5. 基于关联规则的结构化浏览技术及其应用,TP391.41
  6. 数据挖掘技术在独立学院教学评估中的应用研究,TP311.13
  7. 通信行为指纹研究,TP311.13
  8. 面向教育新闻的主题爬虫设计与实现,TP391.3
  9. SMBSDD:一种改进的非结构化P2P网络搜索机制,TP393.02
  10. 数据挖掘在学生评价系统中的应用,TP311.13
  11. 高校图书馆管理系统的个性化服务的设计与实现,TP311.52
  12. 基于数据挖掘的入侵检测技术的研究,TP393.08
  13. 关联规则算法及其在智能药房系统中的应用研究,TP311.13
  14. 基于中文维基百科的语义相关度计算的研究与实现,TP391.1
  15. 关联规则挖掘的改进算法在入侵检测中的应用,TP311.13
  16. 频繁项挖掘算法及其应用研究,TP311.13
  17. 基于矩阵的加权关联规则挖掘算法研究,TP311.13
  18. P2P环境下基于信任的访问控制研究,TP393.08
  19. 基于贝叶斯理论的网络流量分类研究,TP393.06
  20. 关联规则在高校图书馆读者数据处理中的应用研究,TP311.13

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机软件 > 程序设计、软件工程 > 程序设计 > 数据库理论与系统
© 2012 www.xueweilunwen.com