学位论文 > 优秀研究生学位论文题录展示

基于领域的网络爬虫技术的研究与实现

作 者: 谭龙远
导 师: 潘昊
学 校: 武汉理工大学
专 业: 计算机应用技术
关键词: 网络爬虫 文本分类 概率模型 搜索引擎
分类号: TP391.3
类 型: 硕士论文
年 份: 2009年
下 载: 403次
引 用: 3次
阅 读: 论文下载
 

内容摘要


随着Web信息爆炸式的增长,如何有效的在Web中获取有用的信息已变得及其困难。搜索引擎在信息检索中扮演着重要的作用,已经为人们在日常生活中进行信息检索不可缺少的工具。Yahoo、Google、MSN、百度等商业搜索引擎正是众多通用搜索引擎中最成功的典范,但随着网络变得越来越复杂,这些通用的搜索引擎也有时会在信息领航中也会迷失方向。然而,最近几年对各种搜索技术的研究方兴未艾,基于P2P技术的流媒体搜索、元搜索技术、垂直搜索技术等都成为了搜索领域研究的热点。本文的核心工作就是对主题相关的网络爬虫进行研究。首先深入分析一个大规模的搜索引擎,细述了其工作原理,常用的几种搜索策略,并分析了其优劣点,随后从两个方面分析了WEB爬虫的技术实现困境:一是通用搜索引擎需要解决的技术问题,二是通用搜索引擎存在的局限性。接着给出了主题相关的网络爬虫的实现框图。考虑到如何克服高度并发、以及对网络带宽的占用问题,提出了设计一个DNS解析器,以便于有效的利用网络带宽,减少网络传输延时;为了高效的对页面进行抓取,保证在进行并行抓取时,各进程间通信的问题,让各个组件之间高效的工作,在设计中引入了非阻塞套接字技术。URL的调度技术在网络爬虫系统的设计中起着关键的作用,提出了基于概率模型的启发示度量规则,让我们的网络系统有着更加智能的路由功能,以便于始终可以向着用户设定的主题进行页面获取。在给出了基于概率模型的启发示度量规则后,更进一步的提出了基于最佳优先搜索的隧道技术,用于克服对某个主题在进行抓取多次后,若偏离了原先的主题,可以让其迅速停止工作,从而在URL队列中选取下一个URL作为下一次的页面抓取出发点。考虑到技术的完整性,简要的给出网络爬虫的其他相关技术的实现。文本分类是主题网络爬虫不可缺少的技术组件。本文提出了一种改进的贝叶斯分类算法,通用的贝叶斯分类器认为所有的所有词项的重要性都是等概率的,在这里认为应更加的倾向于各标题中的词项。最后,设计了一个Focused-Crawler的原型,给出实验数据。通过对比,分析、测试、比较了各算法之间的优劣。

全文目录


摘要  4-5
Abstract  5-9
第1章 绪论  9-15
  1.1 选题的背景  9-11
  1.2 搜索引擎的发展现状  11-13
  1.3 文本分类技术概述  13
  1.4 本文的结构及研究的内容  13-15
第2章 网络爬虫  15-21
  2.1 网络爬虫概述  15-18
    2.1.1 网络爬虫的工作原理  16-17
    2.1.2 网络爬虫的搜索策略  17-18
  2.2 网络爬虫的实现  18-20
    2.2.1 网络爬虫的技术实现  18-19
    2.2.2 Web爬行的实现困境  19-20
  2.3 本章小结  20-21
第3章 面向领域的Web爬行器  21-49
  3.1 领域相关的网络爬虫  21-24
    3.1.1 爬虫结构的设计  21-24
    3.1.2 爬虫的技术实现路径图  24
  3.2 域名解析器的设计  24-26
  3.3 并行抓取策略的实现  26-29
    3.3.1 多线程技术  26-27
    3.3.2 非阻塞套接字技术  27-29
  3.4 URL调度实现  29-38
    3.4.1 基于概率模型的启发式度量规则  29-32
    3.4.2 URL调度策略及数据结构  32-33
    3.4.3 基于最佳优先搜索的隧道技术  33-38
  3.5 页面存储技术的实现  38-44
    3.5.1 页面存储  38-39
    3.5.2 布尔查询与反向索引技术  39-41
    3.5.3 页面存储库更新  41-42
    3.5.4 索引压缩技术  42-44
  3.6 其他相关技术实现  44-47
    3.6.1 HTML分析模块  44-45
    3.6.2 URL过滤模块  45-46
    3.6.3 更新抓取实现策略  46-47
    3.6.4 监测管理器的实现策略  47
  3.7 本章小结  47-49
第4章 Web文本分类器  49-60
  4.1 文本分类原理  49-50
  4.2 HTML文本的表示形式  50-52
    4.2.1 向量空间模型(VSM)  50-51
    4.2.2 评估页面与用户查询主题的相关度  51-52
  4.3 朴素贝叶斯分类器  52-56
    4.3.1 朴素贝叶斯分类器  52-54
    4.3.2 改进的朴素贝叶斯分类算法  54-56
  4.4 本章小结及实验数据  56-60
    4.4.1 文本分类实验  57-59
    4.4.2 本章小结  59-60
第5章 实验与数据分析  60-66
  5.1 实验步骤  60-63
    5.1.1 定义爬虫结构  60-61
    5.1.2 实现爬虫算法  61-63
  5.2 爬虫实验数据  63-65
  5.3 实验结果分析  65-66
第6章 总结和展望  66-68
参考文献  68-73
致谢  73-74
攻读硕士期间发表的学术论文  74

相似论文

  1. 基于仿生模式识别的文本分类技术研究,TP391.1
  2. 互联网上旅游评论的情感分析及其有用性研究,TP391.1
  3. 基于比对技术的非法网站探测系统的实现与研究,TP393.08
  4. 网络搜索引擎的相关技术研究,G354
  5. 基于语义网络的智能搜索引擎研究,TP391.3
  6. 基于数据分布特征的文本分类研究,TP391.1
  7. 搜索引擎服务提供商版权侵权责任认定标准探讨,D923.41
  8. 车辆识别系统动态特征选择算法的研究与实现,TP391.41
  9. 基于Web搜索和网页结构分析的IT相关主题新闻抓取研究,TP393.092
  10. 分布式搜索引擎索引安全及缓存策略研究,TP333
  11. 基于WebHarvest的中文财经新闻搜索引擎的设计与实现,TP311.52
  12. 一种于经验数据的软件缺陷修复工作量预测模型研究,TP311.53
  13. 基于分类模型监测电子商务违禁信息的研究与实现,TP393.09
  14. 教育培训行业互联网营销问题的研究,F49
  15. 搜索引擎侵权行为研究,D923
  16. 基于语义分析的文本挖掘研究,TP391.1
  17. 基于Web数据挖掘的个性化搜索引擎研究,TP391.3
  18. 基于Agent元搜索引擎的个性化研究,TP391.3
  19. 论搜索引擎竞价排名的法律规制,D923.43
  20. 搜索引擎悖论解读,G254
  21. 软件缺陷自动分派研究,TP311.52

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 检索机
© 2012 www.xueweilunwen.com