学位论文 > 优秀研究生学位论文题录展示

恶意URL检测项目中基于PageRank算法的网络爬虫的设计和实现

作 者: 王晓梅
导 师: 白中英
学 校: 北京邮电大学
专 业: 计算机科学与技术
关键词: 网络爬虫 恶意URL检测 多线程 PageRank算法
分类号: TP391.3
类 型: 硕士论文
年 份: 2010年
下 载: 172次
引 用: 0次
阅 读: 论文下载
 

内容摘要


随着Internet的迅速发展,网上信息以爆炸性的速度不断丰富和扩展,如何有效地采集并利用这些信息成为一个巨大的挑战。搜索引擎正是解决这一问题的有效工具,而高效的网络爬虫是搜索引擎的核心技术之一。网络爬虫是一个可以从因特网上自动提取网页的系统,它为搜索引擎从万维网上下载网页,是搜索引擎的重要组成部分。而本文的网络爬虫系统是为恶意URL检测项目服务的,为其提供被检测的URLs,充实URL库。本文首先总体介绍了爬虫系统为之服务的恶意URL检测项目,并简单总结了此项目的实验结果。随后对网络爬虫的研究现状、搜索策略、PageRank算法等技术进行了详细的论述。最后对网络爬虫系统的详细设计和实现进行了论述。本文通过Java语言实现了一个基于广度优先搜索策略的多线程爬虫程序。论文对爬虫系统的各个功能模块的设计和实现进行了详细的论述,包括关键技术的分析和解决方案等。本文详细介绍了多线程并行机制,并用线程池来管理多线程;在url调度策略方面,采用了cache缓存的机制,在url去重方面,采用了基于LRU算法的MD5算法;基于可扩展性方面,采用面向接口编程的思想,以利于程序的可扩展性;针对恶意URL检测项目的要求,在标识优先级方面,采用了改进的PageRank算法。论文从爬行效率和爬全率等方面对系统进行了测试,通过测试数据的分析,此系统满足项目的要求,得到了较好的结果。

全文目录


摘要  4-5
Abstract  5-9
第一章 绪论  9-12
  1.1 研究背景  9-10
  1.2 课题的产生及研究意义  10
    1.2.1 课题的产生  10
    1.2.2 课题的研究意义  10
  1.3 论文内容安排  10-12
第二章 恶意URL检测项目的介绍  12-20
  2.1 系统的研究目的及相关概念  12-14
    2.1.1 研究目的  12
    2.1.2 Internet网络安全  12-13
    2.1.3 恶意URL相关概念  13-14
  2.2 系统总体设计  14-17
    2.2.1 需求分析  14-15
    2.2.2 系统设计目标  15
    2.2.3 系统功能模块  15-17
  2.3 系统运行情况  17-20
    2.3.1 系统原型机图  17-19
    2.3.2 系统实验结果总结  19-20
第三章 网路爬虫及相关技术  20-31
  3.1 通用网络爬虫与主题网络爬虫  20-23
    3.1.1 通用网络爬虫  20-21
    3.1.2 主题网络爬虫  21-22
    3.1.3 两种类型爬虫的比较  22-23
  3.2 网络爬虫研究现状  23-25
    3.2.1 Web页面的特点  23
    3.2.2 网络爬虫的研究历史  23-24
    3.2.3 具有代表性的网络爬虫研究  24-25
  3.3 网络爬虫相关技术  25-31
    3.3.1 Java技术  25-26
    3.3.2 网络爬虫的搜索策略  26-27
    3.3.3 平衡礼貌策略  27-28
    3.3.4 PageRank算法和HITS算法的研究  28-29
    3.3.5 网页解析技术  29-31
第四章 网路爬虫的总体设计  31-40
  4.1 系统需求分析  31-32
  4.2 系统工作流程图  32-36
  4.3 系统结构  36-38
    4.3.1 系统体系结构  36-37
    4.3.2 系统设计结构分析  37-38
  4.4 系统主要功能模块类设计  38-39
  4.5 系统开发环境  39-40
第五章 网路爬虫的详细设计和实现  40-63
  5.1 中心控制模块的设计和实现  40-43
    5.1.1 线程控制模块  40-41
    5.1.2 线程池模块  41-43
    5.1.3 日志记录模块  43
  5.2 任务执行模块的设计和实现  43-58
    5.2.1 爬虫主模块的设计和实现  43-48
    5.2.2 网页下载模块的设计和实现  48-50
    5.2.3 网页解析模块的设计和实现  50-54
    5.2.4 Url管理模块  54-58
  5.3 数据库的设计  58-60
    5.3.1 数据库表的设计  58-59
    5.3.2 数据库管理模块  59-60
  5.4 系统测试  60-63
第六章 总结与展望  63-64
  6.1 论文工作总结  63
  6.2 未来展望  63-64
参考文献  64-67
致谢  67-68
攻读学位期间发表的学术论文目录  68

相似论文

  1. AVS视频解码器在PC平台上的优化及场解码的改善,TN919.81
  2. 基于智能学习的多传感器目标识别与跟踪系统研究,TP391.41
  3. 基于比对技术的非法网站探测系统的实现与研究,TP393.08
  4. 基于C/S架构的车辆远程监控系统的设计与实现,TP277
  5. 基于多核的动态剖析加速方法研究,TP332
  6. 基于WebHarvest的中文财经新闻搜索引擎的设计与实现,TP311.52
  7. 基于多线程图像处理机测试系统的研究,TP391.41
  8. 车载终端执行文件远程升级系统的设计与研究,TP277
  9. 基于共享前端的流多核体系结构关键技术研究,TP332
  10. 网络舆情分析关键技术研究与实现,TP393.09
  11. 电学层析成像系统优化设计,O441.4
  12. 捣固车自动引导系统的设计与实现,U216.6
  13. 基于链接结构分析的Web页面排序算法,TP393.092
  14. 银行LED屏远程信息发布系统的设计与实现,TP311.52
  15. 园区企业劳动人事管理系统的设计与实现,TP311.52
  16. 面向企业竞争情报的主题搜索研究与实现,TP391.3
  17. 搜索引擎主题相关性研究,TP391.3
  18. 基于校园网的网上考试系统平台的研究与实现,TP311.52
  19. 多纹理图像分割并行算法研究与实现,TP391.41
  20. 基于OpenGL的飞秒激光加工仿真系统的研究,TG665
  21. 基于RTDS的微机保护实时仿真系统研究,TM774

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 检索机
© 2012 www.xueweilunwen.com