学位论文 > 优秀研究生学位论文题录展示

基于领域知识的Deep Web接口发现研究

作 者: 姚增利
导 师: 袁方
学 校: 河北大学
专 业: 计算机应用技术
关键词: Deep Web接口 领域知识 搜索引擎 支持向量机
分类号: TP393.09
类 型: 硕士论文
年 份: 2009年
下 载: 15次
引 用: 0次
阅 读: 论文下载
 

内容摘要


随着Internet技术的快速发展,Web数据库越来越受到人们的重视,Web按其所蕴含信息的“深度”可以分为Surface Web和Deep Web两部分。与Surface Web相比,Deep Web蕴藏了更加丰富、更加专业的信息,为了有效的利用这些信息,建立Deep Web数据集成系统成为当前研究的热点,而Deep Web接口发现是建立Deep Web数据集成系统的首要工作。Deep Web接口发现需要解决4个方面的问题:(1)找到可能包含领域内Deep Web接口的网站。(2)从找到的网站中识别出领域内Deep Web接口。(3)评估发现的领域内DeepWeb接口的覆盖率。(4)抽取出Deep Web接口的属性信息。对于第一个问题,利用搜索引擎是一种行之有效的办法,它的难点在于如何设计查询提交词,进而实现用较少的查询提交词快速发现尽可能多的领域内Deep Web接口,本文提出了基于领域知识的查询提交词确定方法,该方法包括三部分:(1)基于领域知识计算查询提交词的知名度,即利用领域知识确定出检查某词是否符合高知名度的特征词,把该词和该词的特征词作为组合词提交到搜索引擎,统计目标网站精确匹配组合词的个数,个数越多,则说明该词和特征词越匹配,从而该词的知名度就越高,该词能找到含有领域内Deep Web接口数越多。(2)基于领域知识的URL过滤,即通过URL中含有的领域知识快速排除和本领域无关的网站,且剩余的网站数目越多,则含有领域内Deep Web接口的网站数也越多,计算剩余网站个数并降序排列,从而排在前面的一个词要比排在后面的一个词找到的领域内Deep Web接口数多。(3)查询提交词确定流程。实验表明该方法可实现用较少的查询提交词快速发现尽可能多的领域内Deep Web接口。对于第二个问题,本文提出基于支持向量机的Deep Web接口判定方法,该方法具有较高的查准率和查全率。对于第三个问题,本文提出基于集成网站评估发现领域内Deep Web接口的覆盖率方法,该方法具有一定的参考价值。对于第四个问题,本文提出基于DOM树和正则表达式的Deep Web接口信息抽取方法,该方法能准确的抽取出所需要的信息,且简单易行。

全文目录


摘要  5-6
Abstract  6-10
第1章 绪论  10-18
  1.1 研究背景及意义  10-11
  1.2 Deep Web数据集成研究现状  11-12
  1.3 Deep Web接口发现的研究现状  12-15
  1.4 研究内容  15-16
  1.5 论文结构  16-17
  1.6 本章小结  17-18
第2章 相关知识介绍  18-29
  2.1 领域知识  18-19
    2.1.1 领域知识概念  18
    2.1.2 领域知识获取  18-19
  2.2 搜索引擎  19-22
    2.2.1 搜索引擎分类  20-21
    2.2.2 机器人搜索引擎的组成及各部分的功能  21-22
    2.2.3 机器人搜索引擎的搜索算法  22
  2.3 支持向量机  22-23
    2.3.1 支持向量机概念  22-23
    2.3.2 支持向量机的优点  23
  2.4 HTML语言  23-25
    2.4.1 HTML概念  23
    2.4.2 HTML标签  23-24
    2.4.3 HTML表单  24-25
  2.5 XML语言  25-27
    2.5.1 XML概念及性质  25-26
    2.5.2 XML文档  26-27
  2.6 DOM树  27
  2.7 正则表达式  27-28
  2.8 本章小结  28-29
第3章 Deep Web接口发现  29-38
  3.1 领域知识的作用  29-30
  3.2 搜索引擎的特点  30-31
  3.3 基于领域知识的查询提交词确定  31-34
    3.3.1 基于领域知识计算查询提交词的知名度  31-32
    3.3.2 基于领域知识的URL过滤  32
    3.3.3 查询提交词确定流程  32-34
  3.4 基于支持向量机的接口判定  34-35
  3.5 基于集成网站评估发现领域内Deep Web接口的覆盖率  35-36
  3.6 基于DOM树和正则表达式的Deep Web接口信息抽取  36-37
  3.7 本章小结  37-38
第4章 实验及分析  38-47
  4.1 数据集  38-40
  4.2 实验结果及分析  40-46
  4.3 本章小结  46-47
第5章 总结与展望  47-48
参考文献  48-52
攻读硕士学位期间科研工作情况  52-53
致谢  53

相似论文

  1. 基于SVM的常压塔石脑油干点软测量建模研究,TE622.1
  2. 基于SVM的高速公路路面浅层病害的自动检测算法研究,U418.6
  3. 基于PCA-SVM的液体火箭发动机试验台故障诊断算法研究,V433.9
  4. 空间目标ISAR成像仿真及基于ISAR像的目标识别,TN957.52
  5. 音乐结构自动分析研究,TN912.3
  6. 基于三维重建的焊点质量分类方法研究,TP391.41
  7. 胆囊炎和肾病综合症脉象信号的特征提取与分类研究,TP391.41
  8. 直推式支持向量机研究及其在图像检索中的应用,TP391.41
  9. 基于SVM的中医舌色苔色分类方法研究,TP391.41
  10. 基于图像的路面破损识别,TP391.41
  11. 基于支持向量机的故障诊断方法研究,TP18
  12. 过程支持向量机及其在卫星热平衡温度预测中的应用研究,TP183
  13. 基于监督流形学习算法的固有不规则蛋白质结构预测研究,Q51
  14. 基于车载3D加速传感器的路况监测研究,TP274
  15. 高光谱图像技术诊断黄瓜病害方法的研究,S436.421
  16. 网络搜索引擎的相关技术研究,G354
  17. 基于语义网络的智能搜索引擎研究,TP391.3
  18. 基于机器学习的入侵检测系统研究,TP393.08
  19. 支持向量机回归在短期电力负荷预测中的应用研究,TM715;F224
  20. 搜索引擎服务提供商版权侵权责任认定标准探讨,D923.41
  21. 面向文本分类的改进K近邻的支持向量机算法研究,TP391.1

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 计算机网络 > 一般性问题 > 计算机网络应用程序
© 2012 www.xueweilunwen.com