学位论文 > 优秀研究生学位论文题录展示

基于可扩展哈希算法的并行爬虫动态负载均衡实现

作 者: 孙守兴
导 师: 叶允明
学 校: 哈尔滨工业大学
专 业: 计算机科学与技术
关键词: 并行爬虫 动态负载均衡 可扩展哈希算法 超图重划分
分类号: TP391.3
类 型: 硕士论文
年 份: 2010年
下 载: 109次
引 用: 0次
阅 读: 论文下载
 

内容摘要


随着Internet的迅速发展,网上信息以爆炸性的速度不断丰富和扩展,搜索引擎成为获取信息的必需工具,而网络爬虫作为网页收集工具是搜索引擎的核心组成部分。随着互联网信息量的增大,对搜索引擎网页收集的全面性和及时性提出了更高的要求,因此爬虫的性能面临着巨大的挑战。不仅要求能够尽可能高效率的下载网页,而且要求能够尽量充分地利用计算资源和服务器资源。本文围绕着提高网络爬虫性能的核心需求,在深入研究了爬虫的工作原理和相关技术的基础上,从负载分配过程和负载动态均衡过程两个角度研究了爬虫的动态负载平衡,从多个方面较大提升了爬虫的运行性能。本文的主要成果可归纳为以下几个方面:首先,在对爬虫相关技术进行深入研究的基础上,提出了逻辑二级节点映射法与可扩展哈希算法相结合的静态负载分配策略,并针对实际应用中伪键分布异常的问题改进了可扩展哈希算法。其次,基于静态负载分配策略,提出以负载当量模型衡量并行爬虫系统节点的负载分布,继而根据系统节点的负载分布情况,以超图重划分模型对动态负载调度问题建模,最终引入分级策略解决超图重划分问题。最后,基于上述的理论研究成果,本文设计开发一个高性能的分布式并行网络爬虫系统。

全文目录


摘要  5-6
Abstract  6-10
第1章 绪论  10-16
  1.1 课题研究背景与意义  10-12
    1.1.1 研究背景  10-11
    1.1.2 研究意义  11-12
  1.2 国内外相关研究和综述  12-14
    1.2.1 负载均衡的实现机制  12
    1.2.2 负载均衡的任务分割  12-13
    1.2.3 负载均衡的实现技术  13-14
  1.3 本文研究内容  14-15
  1.4 本文的结构安排  15-16
第2章 并行爬虫系统的相关技术  16-24
  2.1 引言  16
  2.2 集群系统  16-17
  2.3 任务调度  17-19
  2.4 网络爬虫  19-23
    2.4.1 网络爬虫设计概述  19-20
    2.4.2 网络爬虫的性能优化  20-23
  2.5 本章小结  23-24
第3章 并行爬虫静态负载分配策略  24-39
  3.1 引言  24
  3.2 影响负载分配策略的因素  24-26
    3.2.1 负载平衡  24
    3.2.2 划分粒度  24-25
    3.2.3 通讯开销  25
    3.2.4 鲁棒性与可扩展性  25-26
  3.3 逻辑二级节点映射法  26-28
  3.4 可扩展哈希算法及其改进  28-38
    3.4.1 可扩展哈希算法简介  29-31
    3.4.2 可扩展哈希算法的改进算法  31-35
    3.4.3 算法对比实验  35-38
  3.5 本章小结  38-39
第4章 并行爬虫动态负载调度策略  39-53
  4.1 引言  39
  4.2 动态负载平衡算法的权衡因素  39-41
  4.3 负载当量的计算  41-42
  4.4 动态负载调整问题建模  42-48
  4.5 超图多级重划分策略  48-49
  4.6 对比实验及结果分析  49-52
    4.6.1 实验环境  50
    4.6.2 实验结果及分析  50-52
  4.7 本章小结  52-53
第5章 并行爬虫系统设计与实现  53-61
  5.1 并行爬虫的体系结构设计  53-55
  5.2 并行爬虫系统模块功能设计与实现  55-60
    5.2.1 爬行模块  55-56
    5.2.2 存储模块  56-58
    5.2.3 负载均衡模块  58-60
  5.3 本章小结  60-61
结论  61-63
参考文献  63-68
致谢  68

相似论文

  1. 基于动态负载均衡技术的培训系统的设计与实现,TP311.52
  2. 空间数据库集群中间件技术研究与实现,TP311.13
  3. 网络安全审计系统中数据捕获和协议分析技术研究,TP393.08
  4. 面向Web Service的负载均衡策略研究,TP393.09
  5. 基于Web Service的分布式系统中动态负载均衡策略的研究与实现,TP338.8
  6. 基于资源和实时性需求的任务类型划分及其负载均衡研究,TP393.02
  7. 简单要素模型并行化空间运算研究与实现,P208
  8. 分布式文件系统元数据负载均衡技术研究与实现,TP316.4
  9. 基于随机Petri网的Web服务器集群动态负载均衡算法研究,TP393.05
  10. 一种改进的LVS动态负载均衡算法,TP393.01
  11. 基于面向内容交换的Linux集群系统负载均衡策略研究,TP393.05
  12. 分布式系统负载均衡策略研究,TP393.03
  13. 基于遗传算法的服务器端动态负载均衡系统的设计与实现,TP393.05
  14. 基于随机高级Petri网模型的服务器均衡集群研究,TP393.05
  15. 基于Linux高性能负载均衡的集群系统的研究与实现,TP338
  16. 兰州市WebGIS系统设计与实现,TP311.52
  17. 分布式系统中的主机负载预测与动态负载均衡研究,TP393
  18. 移动通信网来电提醒系统的实现和优化,TN929.5
  19. 网格服务的动态分布式策略负载均衡的研究与实现,TP393.01
  20. P2P工作流系统中的资源搜索及负载均衡优化研究,TP393.02

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 检索机
© 2012 www.xueweilunwen.com