学位论文 > 优秀研究生学位论文题录展示
恶意URL检测项目中基于PageRank算法的网络爬虫的设计和实现
作 者: 王晓梅
导 师: 白中英
学 校: 北京邮电大学
专 业: 计算机科学与技术
关键词: 网络爬虫 恶意URL检测 多线程 PageRank算法
分类号: TP391.3
类 型: 硕士论文
年 份: 2010年
下 载: 172次
引 用: 0次
阅 读: 论文下载
内容摘要
随着Internet的迅速发展,网上信息以爆炸性的速度不断丰富和扩展,如何有效地采集并利用这些信息成为一个巨大的挑战。搜索引擎正是解决这一问题的有效工具,而高效的网络爬虫是搜索引擎的核心技术之一。网络爬虫是一个可以从因特网上自动提取网页的系统,它为搜索引擎从万维网上下载网页,是搜索引擎的重要组成部分。而本文的网络爬虫系统是为恶意URL检测项目服务的,为其提供被检测的URLs,充实URL库。本文首先总体介绍了爬虫系统为之服务的恶意URL检测项目,并简单总结了此项目的实验结果。随后对网络爬虫的研究现状、搜索策略、PageRank算法等技术进行了详细的论述。最后对网络爬虫系统的详细设计和实现进行了论述。本文通过Java语言实现了一个基于广度优先搜索策略的多线程爬虫程序。论文对爬虫系统的各个功能模块的设计和实现进行了详细的论述,包括关键技术的分析和解决方案等。本文详细介绍了多线程并行机制,并用线程池来管理多线程;在url调度策略方面,采用了cache缓存的机制,在url去重方面,采用了基于LRU算法的MD5算法;基于可扩展性方面,采用面向接口编程的思想,以利于程序的可扩展性;针对恶意URL检测项目的要求,在标识优先级方面,采用了改进的PageRank算法。论文从爬行效率和爬全率等方面对系统进行了测试,通过测试数据的分析,此系统满足项目的要求,得到了较好的结果。
|
全文目录
摘要 4-5 Abstract 5-9 第一章 绪论 9-12 1.1 研究背景 9-10 1.2 课题的产生及研究意义 10 1.2.1 课题的产生 10 1.2.2 课题的研究意义 10 1.3 论文内容安排 10-12 第二章 恶意URL检测项目的介绍 12-20 2.1 系统的研究目的及相关概念 12-14 2.1.1 研究目的 12 2.1.2 Internet网络安全 12-13 2.1.3 恶意URL相关概念 13-14 2.2 系统总体设计 14-17 2.2.1 需求分析 14-15 2.2.2 系统设计目标 15 2.2.3 系统功能模块 15-17 2.3 系统运行情况 17-20 2.3.1 系统原型机图 17-19 2.3.2 系统实验结果总结 19-20 第三章 网路爬虫及相关技术 20-31 3.1 通用网络爬虫与主题网络爬虫 20-23 3.1.1 通用网络爬虫 20-21 3.1.2 主题网络爬虫 21-22 3.1.3 两种类型爬虫的比较 22-23 3.2 网络爬虫研究现状 23-25 3.2.1 Web页面的特点 23 3.2.2 网络爬虫的研究历史 23-24 3.2.3 具有代表性的网络爬虫研究 24-25 3.3 网络爬虫相关技术 25-31 3.3.1 Java技术 25-26 3.3.2 网络爬虫的搜索策略 26-27 3.3.3 平衡礼貌策略 27-28 3.3.4 PageRank算法和HITS算法的研究 28-29 3.3.5 网页解析技术 29-31 第四章 网路爬虫的总体设计 31-40 4.1 系统需求分析 31-32 4.2 系统工作流程图 32-36 4.3 系统结构 36-38 4.3.1 系统体系结构 36-37 4.3.2 系统设计结构分析 37-38 4.4 系统主要功能模块类设计 38-39 4.5 系统开发环境 39-40 第五章 网路爬虫的详细设计和实现 40-63 5.1 中心控制模块的设计和实现 40-43 5.1.1 线程控制模块 40-41 5.1.2 线程池模块 41-43 5.1.3 日志记录模块 43 5.2 任务执行模块的设计和实现 43-58 5.2.1 爬虫主模块的设计和实现 43-48 5.2.2 网页下载模块的设计和实现 48-50 5.2.3 网页解析模块的设计和实现 50-54 5.2.4 Url管理模块 54-58 5.3 数据库的设计 58-60 5.3.1 数据库表的设计 58-59 5.3.2 数据库管理模块 59-60 5.4 系统测试 60-63 第六章 总结与展望 63-64 6.1 论文工作总结 63 6.2 未来展望 63-64 参考文献 64-67 致谢 67-68 攻读学位期间发表的学术论文目录 68
|
相似论文
- AVS视频解码器在PC平台上的优化及场解码的改善,TN919.81
- 基于智能学习的多传感器目标识别与跟踪系统研究,TP391.41
- 基于比对技术的非法网站探测系统的实现与研究,TP393.08
- 基于C/S架构的车辆远程监控系统的设计与实现,TP277
- 基于多核的动态剖析加速方法研究,TP332
- 基于WebHarvest的中文财经新闻搜索引擎的设计与实现,TP311.52
- 基于多线程图像处理机测试系统的研究,TP391.41
- 车载终端执行文件远程升级系统的设计与研究,TP277
- 基于共享前端的流多核体系结构关键技术研究,TP332
- 网络舆情分析关键技术研究与实现,TP393.09
- 电学层析成像系统优化设计,O441.4
- 捣固车自动引导系统的设计与实现,U216.6
- 基于链接结构分析的Web页面排序算法,TP393.092
- 银行LED屏远程信息发布系统的设计与实现,TP311.52
- 园区企业劳动人事管理系统的设计与实现,TP311.52
- 面向企业竞争情报的主题搜索研究与实现,TP391.3
- 搜索引擎主题相关性研究,TP391.3
- 基于校园网的网上考试系统平台的研究与实现,TP311.52
- 多纹理图像分割并行算法研究与实现,TP391.41
- 基于OpenGL的飞秒激光加工仿真系统的研究,TG665
- 基于RTDS的微机保护实时仿真系统研究,TM774
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 检索机
© 2012 www.xueweilunwen.com
|