学位论文 > 优秀研究生学位论文题录展示

吃玩网中Deep Web数据集成研究

作 者: 李继宝
导 师: 李庆忠
学 校: 山东大学
专 业: 计算机软件与理论
关键词: 传统搜索引擎 爬虫 Deep Web 本体 匹配 信息集成
分类号: TP391.3
类 型: 硕士论文
年 份: 2008年
下 载: 180次
引 用: 1次
阅 读: 论文下载
 

内容摘要


随着互联网的发展,涌现出大量同类网站(例如房产网、吃玩网、旅游网等),由于各个网站间信息的孤立性,人们为获得有效信息不得不游离于各个网站之间。虽然,像谷歌、雅虎、百度等(称为传统搜索引擎)提供搜索服务的网站也可以搜索出不同网站中的信息,但它们的爬虫只能从一个链接爬行到另一个链接。这样,新的网页要从旧的网页中发现,如果一个网页不被别的网页索引,那么就永远不能被发现,从而形成了Deep Web。传统搜索引擎爬虫的爬行特点决定对于Deep Web中的信息一筹莫展,此外传统搜索引擎还存在信息主题性不强、信息冗余和爬行周期过长等问题。因而传统搜索引擎从一定程度上已经无法满足人们的需求。本文针对传统搜索引擎的种种不足,在信息集成的基础上,综合传统搜索引擎的技术,设计了基于领域本体的Deep Web爬虫模型。并在此模型的基础上,提出了一个面向吃玩类网站Deep Web数据集成框架—DWDIS。围绕着这个模型和框架,对其中涉及的若干关键问题进行了深入的研究,并对其设计和实现进行了初步的探讨,实现了一个基于DWDIS的吃玩易搜系统,对DWDIS框架进行了初步的实现和应用验证。本文主要的研究内容和创新工作包括:1.建立了面向特定领域的Deep Web爬虫的爬行模型,并以此为本文的理论基础。该模型在传统搜索引擎的爬虫模型基础上,根据搜索Deep Web内容的需求,增加了特有的工作步骤。该爬虫的主要任务是分析网页中是否含有搜索表单,在本体的帮助下,对表单中的搜索表单进行识别、分析和试填提交,并且对返回的结果进行分析。而传统搜索引擎爬虫的任务是不断的从一个链接爬向另一链接,并在爬行过程中,对链接的网页下载,进行索引存储。2.在Deep Web爬虫的模型基础上,建立了一个面向用户的、应用于吃玩类网站Deep Web数据集成框架—DWDIS。该框架中广泛的应用了信息集成中的模块和技术,建立吃玩类商家本体,使系统能够在本体管理器的管理下顺利运行。3.在Deep Web爬虫模型内,对其中的环节进行了关键部分的实现工作,并讨论了关键部分的实现算法。在模型中,与传统爬虫相同的环节没有进行讨论,重点讨论了不同环节的实现。包括标签与表单元素的匹配算法、表单元素与本体属性的映射、表单填写的质量标准以及衡量方法。最后,还分析了结果返回页面信息抽取的困难以及克服困难的一些方法。4.对本文提出的模型和方法进行了关键部分的实现工作,建立了一个基于DWDIS的吃玩易搜系统,以吃玩类网站Deep Web数据集成为应用背景,对本文工作进行了验证。通过这些实际的开发和验证工作,为进一步的研究,并使之在更多领域的广泛应用奠定了一定的实验基础。5.在基于DWDIS的吃玩易搜系统中提出了活动地图的概念,并对活动地图的生成显示以及用户交互进行了实现。为了方便用户的交互,本系统采用了异步刷新技术。使本系统通过修改本体,就可以运用在其它与地理信息相关的领域。本文针对解决传统搜索引擎的问题,对如何有效的搜索出吃玩类网站DeepWeb中的信息进行了探索性的研究,希望为该问题的解决提供一种有效的思路和方法。本文的课题基础也是目前信息集成领域应用比较广泛的技术,不但为互联网领域的信息搜索提供了思路和方法,同时也为信息集成领域提供了一定的帮助。这使本文课题研究既具有探索性的理论研究价值,也具有较大的应用价值和现实意义。

全文目录


摘要  8-10
ABSTRACT  10-13
第一章 绪论  13-23
  1.1 研究背景  13-14
  1.2 Deep Web相关技术国内外的研究现状  14-20
    1.2.1 传统搜索  16-17
    1.2.2 Deep Web数据集成  17-20
  1.3 课题研究的主要内容  20
  1.4 本文所做的主要工作  20-21
  1.5 本文的结构  21-23
第二章 吃玩类网站Deep Web数据集成框架 DWDIS  23-34
  2.1 Deep Web数据集成框架  23-25
  2.2 系统框架构成  25-31
  2.3 工作过程  31-33
  2.4 本章小结  33-34
第三章 领域本体的构建  34-39
  3.1 本体构建  34-36
  3.2 本体的学习  36-38
  3.3 本章小结  38-39
第四章 Deep Web爬虫的设计和实现  39-56
  4.1 Deep Web爬虫的工作过程  39-40
  4.2 Deep Web爬虫的实现  40-54
    4.2.1 构建领域本体  41
    4.2.2 表单中的元素概述  41-45
    4.2.3 表单的建模  45-47
    4.2.4 值域的建模  47-48
    4.2.5 标签与元素的匹配  48-50
    4.2.6 表单元素与本体属性的映射  50-52
    4.2.7 表单的试填  52-53
    4.2.8 结果页面的分析  53-54
  4.3 本章小结  54-56
第五章 DWDIS系统运行实验  56-65
  5.1 系统的运行过程和效果  56-59
  5.2 标签和元素域值的抽取实验  59-60
  5.3 爬行性能的衡量  60-61
  5.4 爬行性能的分析  61-64
  5.5 本章小结  64-65
第六章 结论与展望  65-69
  6.1 本文主要工作总结  65-67
  6.2 未来工作的展望  67-68
  6.3 本章小结  68-69
参考文献  69-73
致谢  73-74
攻读硕士学位期间发表的学术论文目录  74-75
获奖情况  75-76
在读期间参与科研项目情况  76-77
学位论文评阅及答辩情况表  77

相似论文

  1. 基于巨磁阻抗效应磁测传感器及地磁匹配算法研究,P318
  2. 开关磁阻发电机供电系统仿真分析,TM31
  3. 图像拼接技术研究,TP391.41
  4. 红外图像匹配技术研究,TP391.41
  5. 机器人自动巡检系统中图像配准与图像匹配问题的研究,TP242.62
  6. 基于比对技术的非法网站探测系统的实现与研究,TP393.08
  7. 哲学思想在指导中学数学教学中的作用,G633.6
  8. 基于SVM分类算法的主题爬虫研究,TP391.3
  9. 基于本体的语义检索研究,TP391.3
  10. A公司信息化管理优化研究,TP315
  11. 惊恐障碍患者视觉多特征物理刺激失匹配负波研究,R749.7
  12. 不同人群本体感觉差异性比较及脑机制研究,B845
  13. 惊恐障碍患者听觉信息前注意自动加工的事件相关电位研究,R749.7
  14. 卢卡奇《关于社会存在本体论》中的劳动范畴,B515
  15. 基于分布式描述逻辑的本体模块化构建方法研究,TP391.1
  16. 基于逻辑Petri网的Web服务组合建模与分析,TP393.09
  17. 一种基于领域本体的语义Web服务匹配和组合方法,TP393.09
  18. WordNet和《中国分类主题词表》的映射研究,G254
  19. 拉图尔的行动者网络理论研究,N02
  20. 基于跨语言信息检索的企业竞争情报收集系统模型研究,TP391.3
  21. 基于语义网络的智能搜索引擎研究,TP391.3

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 检索机
© 2012 www.xueweilunwen.com