学位论文 > 优秀研究生学位论文题录展示

基于内容的网页恶意代码检测的研究与实现

作 者: 魏为
导 师: 李芝棠
学 校: 华中科技大学
专 业: 信息安全
关键词: 网页恶意代码 路过式下载 静态检测 动态检测 机器学习
分类号: TP393.092
类 型: 硕士论文
年 份: 2011年
下 载: 95次
引 用: 0次
阅 读: 论文下载
 

内容摘要


近年来,以蠕虫、木马、僵尸网络等为代表的恶意代码始终威胁Internet安全,而随着WEB2.0和云计算的日益普及,越来越多的应用提供基于WEB的服务,已经出现了浏览器级操作系统的趋势,利用浏览器及浏览器插件的漏洞取代了利用操作系统和应用程序漏洞,恶意网页逐渐成为恶意代码传播或攻击的主要渠道,成为地下经济的重要环节。恶意网页是包含恶意内容以使得病毒、木马等可借其进行传播或攻击的网页,包含的恶意内容也被称为网页木马,本质上并非木马,而是以网页为介质进行传播或攻击的恶意代码,一般以JavaScript, VBScript等脚本语言编写,包含在网页之中,通过各种方式进行代码混淆以逃避检测,在网页中插入恶意内容的行为也被称为“网页挂马”。网页恶意代码通过利用用户的浏览器或插件中的漏洞,在用户毫不知情的情况下下载和运行恶意软件,如广告软件、木马和病毒等。正常网页也可能被植入恶意代码,所以即使用户访问一些看似正常的网站,也有可能受到这类恶意代码的攻击。由于网页恶意代码大量使用了代码混淆技术,传统的反病毒软件的漏报率很高,这也导致越来越多的攻击者使用网页恶意代码来传播恶意软件。已有的恶意网页检测方法通常可以分为静态检测(基于网页内容或网址)和动态检测(基于浏览网页引发的行为),以及两者混合的方法。传统静态检测方法简单快速,但只能检测已知的特征,难以处理页面代码混淆,因此会出现大量的漏报和误报,因此,现有系统多使用动态检测的方法,通过在虚拟机中开启一个浏览器来打开网页,监控系统运行状态来找寻恶意行为。动态监测方法准确性较高,但资源消耗比较大,无法用来检测互联网上存在的大规模的网页。通过分析页面内容,提取特征,提出了一种轻量级的网页恶意代码检测方法,进行机器学习来自动得到分类模型。同时,为了弥补静态检测方法的不足,通过JavaScript虚拟机对可能代码混淆的部分进行解析,提高系统准确率。该方法主要对页面源码进行检测,不需要实际访问网页和检测系统行为,因此这个系统在保证检测准确的情况下资源消耗更少,速度更快,可以应用于如搜索引擎等大规模的网页恶意代码检测中。通过系统地分析网页恶意代码的特性,提取了恶意网页检测所用的特征,并完成了网页恶意代码检测原型系统的设计和实现,实验证明该系统能够较为准确有效的完成恶意网页检测。

全文目录


摘要  4-5
Abstract  5-9
1 绪论  9-18
  1.1 研究背景  9-10
  1.2 网页恶意代码概述  10-13
  1.3 国内外研究现状  13-16
  1.4 主要研究内容  16
  1.5 论文结构  16-18
2 基于静态检测的特征提取  18-29
  2.1 引言  18
  2.2 网页特征提取方法  18-20
  2.3 跳转的特征  20-22
  2.4 环境准备的特征  22-23
  2.5 攻击阶段的特征  23-24
  2.6 混淆的特征  24-27
  2.7 其他特征  27-28
  2.8 本章小结  28-29
3 基于JavaScript 模拟环境的特征提取  29-37
  3.1 引言  29
  3.2 常用JavaScript 引擎介绍  29-30
  3.3 基于Rhino 的模拟环境实现  30-36
  3.4 JavaScript 执行过程的特征  36
  3.5 本章小结  36-37
4 分类模型的生成  37-44
  4.1 引言  37
  4.2 Weka 介绍  37-38
  4.3 分类算法及比较  38-40
  4.4 实验结果及分析  40-43
  4.5 本章小结  43-44
5 网页恶意代码检测系统设计与实现  44-52
  5.1 系统总体设计  44-45
  5.2 网页采集模块  45-46
  5.3 静态检测模块  46-48
  5.4 动态验证模块  48
  5.5 黑名单模块  48-50
  5.6 运行时效率  50-51
  5.7 本章小结  51-52
6 总结与展望  52-54
  6.1 全文总结  52-53
  6.2 未来的研究工作  53-54
致谢  54-55
参考文献  55-59
附录 1 攻读硕士期间发表的论文  59

相似论文

  1. C++代码缺陷检测系统的研究与设计,TP311.53
  2. C++静态代码检测语法树构建方法研究,TP311.53
  3. 基于数据分布特征的文本分类研究,TP391.1
  4. 车辆轮对动态检测装置,U270.7
  5. 基于条件随机场的中文分词技术的研究与实现,TP391.1
  6. 领域知识指导的半监督学习和主动学习倾向性分类研究,TP181
  7. Android恶意软件静态检测方案的研究,TP309
  8. 基于学习的逆向运动学人体运动合成,TP391.41
  9. 学术主页信息抽取系统的研究,TP393.092
  10. 社会化网络中的推荐算法及其应用,TP391.3
  11. 数据挖掘在邮件反垃圾系统中的应用,TP393.098
  12. 基于自学习的社会关系抽取的研究,TP391.1
  13. 基于统计与图模型的若干机器学习算法及其应用,TP181
  14. P2P流量识别方法研究,TP393.06
  15. 基于粗糙集和SVM的国防生综合素质测评方法研究,E075
  16. 基于SIFT特征和SVM的场景分类,TP391.41
  17. 基于稀疏编码与机器学习的图像内容识别算法研究,TP391.41
  18. 随机森林特征选择,TP311.13
  19. 互联网流量应用基准分类技术的研究,TP393.06
  20. 基于丰富特征和多核学习的蛋白质关系抽取,Q51

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 计算机网络 > 一般性问题 > 计算机网络应用程序 > 网络浏览器
© 2012 www.xueweilunwen.com