学位论文 > 优秀研究生学位论文题录展示
基于领域的网络爬虫技术的研究与实现
作 者: 谭龙远
导 师: 潘昊
学 校: 武汉理工大学
专 业: 计算机应用技术
关键词: 网络爬虫 文本分类 概率模型 搜索引擎
分类号: TP391.3
类 型: 硕士论文
年 份: 2009年
下 载: 403次
引 用: 3次
阅 读: 论文下载
内容摘要
随着Web信息爆炸式的增长,如何有效的在Web中获取有用的信息已变得及其困难。搜索引擎在信息检索中扮演着重要的作用,已经为人们在日常生活中进行信息检索不可缺少的工具。Yahoo、Google、MSN、百度等商业搜索引擎正是众多通用搜索引擎中最成功的典范,但随着网络变得越来越复杂,这些通用的搜索引擎也有时会在信息领航中也会迷失方向。然而,最近几年对各种搜索技术的研究方兴未艾,基于P2P技术的流媒体搜索、元搜索技术、垂直搜索技术等都成为了搜索领域研究的热点。本文的核心工作就是对主题相关的网络爬虫进行研究。首先深入分析一个大规模的搜索引擎,细述了其工作原理,常用的几种搜索策略,并分析了其优劣点,随后从两个方面分析了WEB爬虫的技术实现困境:一是通用搜索引擎需要解决的技术问题,二是通用搜索引擎存在的局限性。接着给出了主题相关的网络爬虫的实现框图。考虑到如何克服高度并发、以及对网络带宽的占用问题,提出了设计一个DNS解析器,以便于有效的利用网络带宽,减少网络传输延时;为了高效的对页面进行抓取,保证在进行并行抓取时,各进程间通信的问题,让各个组件之间高效的工作,在设计中引入了非阻塞套接字技术。URL的调度技术在网络爬虫系统的设计中起着关键的作用,提出了基于概率模型的启发示度量规则,让我们的网络系统有着更加智能的路由功能,以便于始终可以向着用户设定的主题进行页面获取。在给出了基于概率模型的启发示度量规则后,更进一步的提出了基于最佳优先搜索的隧道技术,用于克服对某个主题在进行抓取多次后,若偏离了原先的主题,可以让其迅速停止工作,从而在URL队列中选取下一个URL作为下一次的页面抓取出发点。考虑到技术的完整性,简要的给出网络爬虫的其他相关技术的实现。文本分类是主题网络爬虫不可缺少的技术组件。本文提出了一种改进的贝叶斯分类算法,通用的贝叶斯分类器认为所有的所有词项的重要性都是等概率的,在这里认为应更加的倾向于各标题中的词项。最后,设计了一个Focused-Crawler的原型,给出实验数据。通过对比,分析、测试、比较了各算法之间的优劣。
|
全文目录
摘要 4-5 Abstract 5-9 第1章 绪论 9-15 1.1 选题的背景 9-11 1.2 搜索引擎的发展现状 11-13 1.3 文本分类技术概述 13 1.4 本文的结构及研究的内容 13-15 第2章 网络爬虫 15-21 2.1 网络爬虫概述 15-18 2.1.1 网络爬虫的工作原理 16-17 2.1.2 网络爬虫的搜索策略 17-18 2.2 网络爬虫的实现 18-20 2.2.1 网络爬虫的技术实现 18-19 2.2.2 Web爬行的实现困境 19-20 2.3 本章小结 20-21 第3章 面向领域的Web爬行器 21-49 3.1 领域相关的网络爬虫 21-24 3.1.1 爬虫结构的设计 21-24 3.1.2 爬虫的技术实现路径图 24 3.2 域名解析器的设计 24-26 3.3 并行抓取策略的实现 26-29 3.3.1 多线程技术 26-27 3.3.2 非阻塞套接字技术 27-29 3.4 URL调度实现 29-38 3.4.1 基于概率模型的启发式度量规则 29-32 3.4.2 URL调度策略及数据结构 32-33 3.4.3 基于最佳优先搜索的隧道技术 33-38 3.5 页面存储技术的实现 38-44 3.5.1 页面存储 38-39 3.5.2 布尔查询与反向索引技术 39-41 3.5.3 页面存储库更新 41-42 3.5.4 索引压缩技术 42-44 3.6 其他相关技术实现 44-47 3.6.1 HTML分析模块 44-45 3.6.2 URL过滤模块 45-46 3.6.3 更新抓取实现策略 46-47 3.6.4 监测管理器的实现策略 47 3.7 本章小结 47-49 第4章 Web文本分类器 49-60 4.1 文本分类原理 49-50 4.2 HTML文本的表示形式 50-52 4.2.1 向量空间模型(VSM) 50-51 4.2.2 评估页面与用户查询主题的相关度 51-52 4.3 朴素贝叶斯分类器 52-56 4.3.1 朴素贝叶斯分类器 52-54 4.3.2 改进的朴素贝叶斯分类算法 54-56 4.4 本章小结及实验数据 56-60 4.4.1 文本分类实验 57-59 4.4.2 本章小结 59-60 第5章 实验与数据分析 60-66 5.1 实验步骤 60-63 5.1.1 定义爬虫结构 60-61 5.1.2 实现爬虫算法 61-63 5.2 爬虫实验数据 63-65 5.3 实验结果分析 65-66 第6章 总结和展望 66-68 参考文献 68-73 致谢 73-74 攻读硕士期间发表的学术论文 74
|
相似论文
- 基于仿生模式识别的文本分类技术研究,TP391.1
- 互联网上旅游评论的情感分析及其有用性研究,TP391.1
- 基于比对技术的非法网站探测系统的实现与研究,TP393.08
- 网络搜索引擎的相关技术研究,G354
- 基于语义网络的智能搜索引擎研究,TP391.3
- 基于数据分布特征的文本分类研究,TP391.1
- 搜索引擎服务提供商版权侵权责任认定标准探讨,D923.41
- 车辆识别系统动态特征选择算法的研究与实现,TP391.41
- 基于Web搜索和网页结构分析的IT相关主题新闻抓取研究,TP393.092
- 分布式搜索引擎索引安全及缓存策略研究,TP333
- 基于WebHarvest的中文财经新闻搜索引擎的设计与实现,TP311.52
- 一种于经验数据的软件缺陷修复工作量预测模型研究,TP311.53
- 基于分类模型监测电子商务违禁信息的研究与实现,TP393.09
- 教育培训行业互联网营销问题的研究,F49
- 搜索引擎侵权行为研究,D923
- 基于语义分析的文本挖掘研究,TP391.1
- 基于Web数据挖掘的个性化搜索引擎研究,TP391.3
- 基于Agent元搜索引擎的个性化研究,TP391.3
- 论搜索引擎竞价排名的法律规制,D923.43
- 搜索引擎悖论解读,G254
- 软件缺陷自动分派研究,TP311.52
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 检索机
© 2012 www.xueweilunwen.com
|