学位论文 > 优秀研究生学位论文题录展示
吃玩网中Deep Web数据集成研究
作 者: 李继宝
导 师: 李庆忠
学 校: 山东大学
专 业: 计算机软件与理论
关键词: 传统搜索引擎 爬虫 Deep Web 本体 匹配 信息集成
分类号: TP391.3
类 型: 硕士论文
年 份: 2008年
下 载: 180次
引 用: 1次
阅 读: 论文下载
内容摘要
随着互联网的发展,涌现出大量同类网站(例如房产网、吃玩网、旅游网等),由于各个网站间信息的孤立性,人们为获得有效信息不得不游离于各个网站之间。虽然,像谷歌、雅虎、百度等(称为传统搜索引擎)提供搜索服务的网站也可以搜索出不同网站中的信息,但它们的爬虫只能从一个链接爬行到另一个链接。这样,新的网页要从旧的网页中发现,如果一个网页不被别的网页索引,那么就永远不能被发现,从而形成了Deep Web。传统搜索引擎爬虫的爬行特点决定对于Deep Web中的信息一筹莫展,此外传统搜索引擎还存在信息主题性不强、信息冗余和爬行周期过长等问题。因而传统搜索引擎从一定程度上已经无法满足人们的需求。本文针对传统搜索引擎的种种不足,在信息集成的基础上,综合传统搜索引擎的技术,设计了基于领域本体的Deep Web爬虫模型。并在此模型的基础上,提出了一个面向吃玩类网站Deep Web数据集成框架—DWDIS。围绕着这个模型和框架,对其中涉及的若干关键问题进行了深入的研究,并对其设计和实现进行了初步的探讨,实现了一个基于DWDIS的吃玩易搜系统,对DWDIS框架进行了初步的实现和应用验证。本文主要的研究内容和创新工作包括:1.建立了面向特定领域的Deep Web爬虫的爬行模型,并以此为本文的理论基础。该模型在传统搜索引擎的爬虫模型基础上,根据搜索Deep Web内容的需求,增加了特有的工作步骤。该爬虫的主要任务是分析网页中是否含有搜索表单,在本体的帮助下,对表单中的搜索表单进行识别、分析和试填提交,并且对返回的结果进行分析。而传统搜索引擎爬虫的任务是不断的从一个链接爬向另一链接,并在爬行过程中,对链接的网页下载,进行索引存储。2.在Deep Web爬虫的模型基础上,建立了一个面向用户的、应用于吃玩类网站Deep Web数据集成框架—DWDIS。该框架中广泛的应用了信息集成中的模块和技术,建立吃玩类商家本体,使系统能够在本体管理器的管理下顺利运行。3.在Deep Web爬虫模型内,对其中的环节进行了关键部分的实现工作,并讨论了关键部分的实现算法。在模型中,与传统爬虫相同的环节没有进行讨论,重点讨论了不同环节的实现。包括标签与表单元素的匹配算法、表单元素与本体属性的映射、表单填写的质量标准以及衡量方法。最后,还分析了结果返回页面信息抽取的困难以及克服困难的一些方法。4.对本文提出的模型和方法进行了关键部分的实现工作,建立了一个基于DWDIS的吃玩易搜系统,以吃玩类网站Deep Web数据集成为应用背景,对本文工作进行了验证。通过这些实际的开发和验证工作,为进一步的研究,并使之在更多领域的广泛应用奠定了一定的实验基础。5.在基于DWDIS的吃玩易搜系统中提出了活动地图的概念,并对活动地图的生成显示以及用户交互进行了实现。为了方便用户的交互,本系统采用了异步刷新技术。使本系统通过修改本体,就可以运用在其它与地理信息相关的领域。本文针对解决传统搜索引擎的问题,对如何有效的搜索出吃玩类网站DeepWeb中的信息进行了探索性的研究,希望为该问题的解决提供一种有效的思路和方法。本文的课题基础也是目前信息集成领域应用比较广泛的技术,不但为互联网领域的信息搜索提供了思路和方法,同时也为信息集成领域提供了一定的帮助。这使本文课题研究既具有探索性的理论研究价值,也具有较大的应用价值和现实意义。
|
全文目录
摘要 8-10 ABSTRACT 10-13 第一章 绪论 13-23 1.1 研究背景 13-14 1.2 Deep Web相关技术国内外的研究现状 14-20 1.2.1 传统搜索 16-17 1.2.2 Deep Web数据集成 17-20 1.3 课题研究的主要内容 20 1.4 本文所做的主要工作 20-21 1.5 本文的结构 21-23 第二章 吃玩类网站Deep Web数据集成框架 DWDIS 23-34 2.1 Deep Web数据集成框架 23-25 2.2 系统框架构成 25-31 2.3 工作过程 31-33 2.4 本章小结 33-34 第三章 领域本体的构建 34-39 3.1 本体构建 34-36 3.2 本体的学习 36-38 3.3 本章小结 38-39 第四章 Deep Web爬虫的设计和实现 39-56 4.1 Deep Web爬虫的工作过程 39-40 4.2 Deep Web爬虫的实现 40-54 4.2.1 构建领域本体 41 4.2.2 表单中的元素概述 41-45 4.2.3 表单的建模 45-47 4.2.4 值域的建模 47-48 4.2.5 标签与元素的匹配 48-50 4.2.6 表单元素与本体属性的映射 50-52 4.2.7 表单的试填 52-53 4.2.8 结果页面的分析 53-54 4.3 本章小结 54-56 第五章 DWDIS系统运行实验 56-65 5.1 系统的运行过程和效果 56-59 5.2 标签和元素域值的抽取实验 59-60 5.3 爬行性能的衡量 60-61 5.4 爬行性能的分析 61-64 5.5 本章小结 64-65 第六章 结论与展望 65-69 6.1 本文主要工作总结 65-67 6.2 未来工作的展望 67-68 6.3 本章小结 68-69 参考文献 69-73 致谢 73-74 攻读硕士学位期间发表的学术论文目录 74-75 获奖情况 75-76 在读期间参与科研项目情况 76-77 学位论文评阅及答辩情况表 77
|
相似论文
- 基于巨磁阻抗效应磁测传感器及地磁匹配算法研究,P318
- 开关磁阻发电机供电系统仿真分析,TM31
- 图像拼接技术研究,TP391.41
- 红外图像匹配技术研究,TP391.41
- 机器人自动巡检系统中图像配准与图像匹配问题的研究,TP242.62
- 基于比对技术的非法网站探测系统的实现与研究,TP393.08
- 哲学思想在指导中学数学教学中的作用,G633.6
- 基于SVM分类算法的主题爬虫研究,TP391.3
- 基于本体的语义检索研究,TP391.3
- A公司信息化管理优化研究,TP315
- 惊恐障碍患者视觉多特征物理刺激失匹配负波研究,R749.7
- 不同人群本体感觉差异性比较及脑机制研究,B845
- 惊恐障碍患者听觉信息前注意自动加工的事件相关电位研究,R749.7
- 卢卡奇《关于社会存在本体论》中的劳动范畴,B515
- 基于分布式描述逻辑的本体模块化构建方法研究,TP391.1
- 基于逻辑Petri网的Web服务组合建模与分析,TP393.09
- 一种基于领域本体的语义Web服务匹配和组合方法,TP393.09
- WordNet和《中国分类主题词表》的映射研究,G254
- 拉图尔的行动者网络理论研究,N02
- 基于跨语言信息检索的企业竞争情报收集系统模型研究,TP391.3
- 基于语义网络的智能搜索引擎研究,TP391.3
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 检索机
© 2012 www.xueweilunwen.com
|