学位论文 > 优秀研究生学位论文题录展示

基于SVM的网络爬虫检测研究与实现

作 者: 宋婷
导 师: 张亚平;李福超
学 校: 天津大学
专 业: 软件工程
关键词: 爬虫检测 支持向量机 分类器 网络安全
分类号: TP391.3
类 型: 硕士论文
年 份: 2010年
下 载: 116次
引 用: 0次
阅 读: 论文下载
 

内容摘要


随着搜索引擎技术的飞速发展,在搜索引擎中承担数据采集、数据发现任务的网络爬虫日益成为互联网上不可忽视的问题。这些爬虫常常在我们毫不知情的情况下爬取信息,一些敏感信息、用户隐私或者机密信息通过网络爬虫被搜索引擎公布于网上,引起严重的信息安全问题。同时,网络爬虫频繁大量的访问请求往往会给目标网站服务器带来巨大的处理负担和访问流量,一些野蛮粗糙的爬虫算法甚至会循环反复抓取信息,行成对服务器的拒绝服务攻击。因此,如何检测和发现网络爬虫,有效减少其对网络安全的影响,已成为网络安全研究中的一个重要课题,对保护用户隐私、保障数据安全及网站的正常运行都有着重要意义。本文首先从网络爬虫的工作原理及爬行策略出发,对网络爬虫的行为特征进行了细致的研究,提取出能够完整描述WEB访问会话的矢量。然后运用支持向量机的分类算法进行网络爬虫与人类访问的分类判别,提出了基于RBF内核的SVM爬虫检测算法。设计实现了WEB-CIS爬虫检测系统,并对其进行了测试分析。本文的研究内容和创新点主要包括以下几个方面:(1)针对网络爬虫的行为特征,对Web日志进行聚类分析,提取出能够标记Web访问会话的特征向量,并对此作出改进,给出了特征向量LFCIS权值的计算方法及改进的权值公式。(2)分析了支持向量机的分类算法原理,提出了基于支持向量机的爬虫检测算法,设计了基于RBF内核的SVM分类器,用于网络访问会话特征向量的分类,取得了优于其它爬虫检测算法的效果。(3)在基于支持向量机的爬虫检测算法的基础上设计实现了WEB-CIS爬虫检测系统,并对其系统架构及Access Cluster、Classifier Training、Testing等模块设计进行了详细描述。(4)分析了WEB爬虫检测系统的评价标准,并对WEB-CIS爬虫检测系统进行了实验与测试,比较了WEB-CIS爬虫检测系统与其它几种WEB爬虫检测方法在同一基准数据集上检测WEB爬虫的能力。实验结果显示本文的方法明显优于其他爬虫检测方法。

全文目录


中文摘要  3-4
ABSTRACT  4-7
第一章 绪论  7-15
  1.1 研究背景与意义  7-8
  1.2 网络爬虫检测研究现状  8-13
    1.2.1 爬虫工作原理及策略  8-12
    1.2.2 网络爬虫检测手段  12-13
  1.3 课题研究的主要内容  13
  1.4 论文结构  13-15
第二章 基于支持向量机的WEB爬虫检测算法  15-28
  2.1 支持向量机的分类算法原理  15-20
    2.1.1 最大边缘超平面  15-16
    2.1.2 结构风险最小化  16-17
    2.1.3 支持向量机  17-20
  2.2 特征选择  20-23
    2.2.4 概述及特征提取  20-22
    2.2.5 改进的特征选择  22-23
  2.3 权值计算  23-24
    2.3.1 LFCIS权值  23-24
    2.3.2 改进的权值公式  24
  2.4 基于支持向量机的爬虫检测算法  24-27
    2.4.1 核方法和核函数  25-26
    2.4.2 基于RBF内核的爬虫检测算法  26-27
  2.5 本章小结  27-28
第三章 WEB爬虫检测系统设计与实现  28-39
  3.1 WEB-CIS系统架构  28-29
  3.2 Access Cluster模块  29-31
    3.2.1 Access Cluster模块的主要功能  29
    3.2.2 Access Cluster模块的主要结构  29-30
    3.2.3 Access Cluster模块的实现  30-31
  3.3 Classfier Training模块  31-35
    3.3.4 Classifier Training模块的主要功能  31
    3.3.5 Classifier Training模块的主要结构  31-32
    3.3.6 Classifier Training模块的实现  32-35
  3.4 Testing模块  35-38
    3.4.1 Testing模块的主要功能  35
    3.4.2 Testing模块的主要结构  35-36
    3.4.3 Testing模块的实现  36-38
  3.5 本章小结  38-39
第四章 测试与分析  39-47
  4.1 实验环境  39-40
  4.2 评价标准  40-41
  4.3 测试与运行  41-43
  4.4 实验结果分析  43-46
  4.5 本章小结  46-47
第五章 总结与展望  47-49
  5.1 本文总结  47
  5.2 研究展望  47-49
参考文献  49-53
发表论文和科研情况说明  53-54
致谢  54

相似论文

  1. 基于SVM的常压塔石脑油干点软测量建模研究,TE622.1
  2. 基于SVM的高速公路路面浅层病害的自动检测算法研究,U418.6
  3. 基于PCA-SVM的液体火箭发动机试验台故障诊断算法研究,V433.9
  4. 空间目标ISAR成像仿真及基于ISAR像的目标识别,TN957.52
  5. 音乐结构自动分析研究,TN912.3
  6. 基于三维重建的焊点质量分类方法研究,TP391.41
  7. 胆囊炎和肾病综合症脉象信号的特征提取与分类研究,TP391.41
  8. 统计与语言学相结合的词对齐及相关融合策略研究,TP391.2
  9. 直推式支持向量机研究及其在图像检索中的应用,TP391.41
  10. 基于SVM的中医舌色苔色分类方法研究,TP391.41
  11. 基于图像的路面破损识别,TP391.41
  12. 基于主动方式的恶意代码检测技术研究,TP393.08
  13. 面向Gnutella和eMule网络拓扑测量和安全性分析,TP393.08
  14. 基于功能节点的无线传感器网络多对密钥管理协议研究,TP212.9
  15. 基于支持向量机的故障诊断方法研究,TP18
  16. 基于LEACH的安全建簇无线传感器网络路由协议研究,TP212.9
  17. 过程支持向量机及其在卫星热平衡温度预测中的应用研究,TP183
  18. 基于比对技术的非法网站探测系统的实现与研究,TP393.08
  19. 基于监督流形学习算法的固有不规则蛋白质结构预测研究,Q51
  20. 基于车载3D加速传感器的路况监测研究,TP274
  21. 基于区域的无线传感器网络密钥管理方案研究,TP212.9

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 检索机
© 2012 www.xueweilunwen.com