学位论文 > 优秀研究生学位论文题录展示

基于数据挖掘和机器学习的恶意代码检测技术研究

作　者: 张小康
导　师: 帅建梅
学　校: 中国科学技术大学
专　业: 模式识别与智能系统
关键词: 恶意代码检测数据挖掘和机器学习变长N-gram 加权信息增益
分类号: TP393.08
类　型: 硕士论文
年　份: 2009年
下　载: 349次
引　用: 7次
阅　读: 论文下载

内容摘要

恶意代码的数量和种类日趋增多,加上代码迷惑技术的兴起,使得检测恶意代码变得越来越困难。传统的基于签名的检测技术被商业杀毒防毒软件普遍使用,但是它必须要在获取一类病毒的签名之后才能有效的检测这类病毒,而签名一般都在感染后才被获取。这个特点使得计算机系统受到恶意代码威胁的可能性提高了。近年来,数据挖掘和机器学习技术应用于恶意代码检测领域,它之所以成为研究的重点,是因为它可以利用数据挖掘从已存在的大量代码数据中挖掘出有意义的模式,利用机器学习可以帮助归纳出已知恶意代码的识别知识,以此来进行相似性搜索,帮助发现未知恶意代码。本文采用数据挖掘和机器学习技术检测恶意代码。在介绍了恶意代码、数据挖掘和机器学习的相关背景和理论知识之后,详细阐述了特征提取方法和特征选择方法。本文的主要贡献如下:1.本文实现了一个恶意代码检测系统,采用机器代码的字节序列变长N-gram作为特征提取方法,加权信息增益作为特征选择方法,使用决策树、支持向量机、朴素贝叶斯等多种分类器进行恶意代码检测。2.本文使用变长N-gram作为恶意代码特征提取方法,能够提取相关的不同长度的有效特征,弥补了定长N-gram可能拆分有效特征的缺陷,通过实验与Kolter采用定长N-gram方法的实验结果进行比较。实验证明变长N-gram在检测性能指标上确实优于定长N-gram。3.本文提出了一种基于加权信息增益(WIG)的特征选择方法。该方法综合考虑特征频率(CF)和信息增益(IG)的作用,利用特征是否出现以及出现的频率这两个因素来综合评价一个特征所含的信息量,弥补了信息增益只考虑特征出现与否的不足,能够更加准确的选取有效特征,从而提高检测性能。实验结果与Reddy采用类域频率方法的实验结果进行比较,证明本文的方法能够更加有效的提高恶意代码的检测率和准确率。通过上述研究和实践,进一步证明了基于数据挖掘和机器学习的恶意代码检测技术的高效性和准确性。

全文目录

摘要  4-5
ABSTRACT  5-10
第1章绪论  10-22
  1.1 研究背景  10-16
    1.1.1 信息安全概况  10-11
    1.1.2 恶意代码定义  11-12
    1.1.3 恶意代码的种类  12-13
    1.1.4 恶意代码的传播趋势  13-14
    1.1.5 恶意代码长期存在的原因  14-15
    1.1.6 恶意代码检测的意义与挑战  15-16
  1.2 恶意代码检测的国内外研究现状  16-20
    1.2.1 恶意代码检测技术  16-18
    1.2.2 数据挖掘和机器学习技术  18-20
  1.3 研究内容  20
  1.4 本文结构  20-22
第2章数据挖掘和机器学习  22-35
  2.1 数据挖掘定义和典型方法  22-24
  2.2 机器学习的概念、模型和发展  24-28
    2.2.1 机器学习的概念和模型  24-25
    2.2.2 机器学习的发展  25-26
    2.2.3 几种常用的学习方法  26-28
  2.3 各种分类算法  28-33
    2.3.1 朴素贝叶斯(Nave Bayes)  28-29
    2.3.2 支持向量机(Support Vector Machine,SVM)  29-32
    2.3.3 决策树(Decision Tree)  32-33
    2.3.4 K‐最近邻(K‐nearest neighborhood,KNN)  33
  2.4 基于数据挖掘和机器学习的恶意代码检测  33-35
第3章特征提取方法  35-46
  3.1 特征提取方法  35-39
    3.1.1 N‐gram 特征  35-36
    3.1.2 变长 N‐gram 特征  36-39
  3.2 恶意代码检测性能指标  39-40
  3.3 实验结果及分析  40-46
    3.3.1 IDA Pro  40-42
    3.3.2 实验设计及结果分析  42-46
第4章基于加权特征增益的恶意代码检测  46-60
  4.1 相关背景  46-47
  4.2 恶意代码检测模型结构及性能指标  47-48
    4.2.1 恶意代码检测模型结构  47-48
    4.2.2 恶意代码检测性能指标  48
  4.3 特征选择方法  48-54
    4.3.1 最大差(Maximal Difference,MD)  49
    4.3.2 最大标准差(Maximal Normalized Difference,MND)  49-50
    4.3.3 最大比率(Maximal Ratio,MR)  50
    4.3.4 最大权重比率(Maximal Weighted Ratio,MWR)  50-51
    4.3.5 最大 K‐L 距离(Maximal Kullback‐Leibler Distance,MKLD)  51
    4.3.6 类域频率(Classwise Frequency,CF)  51
    4.3.7 信息增益(Information Gain,IG)  51-53
    4.3.8 加权信息增益(Weighted Information Gain,WIG)  53-54
  4.4 实验仿真及结果分析  54-60
    4.4.1 WEKA 数据挖掘平台  54-55
    4.4.2 交叉验证  55-56
    4.4.3 实验设计及结果分析  56-60
第5章总结和展望  60-62
参考文献  62-65
致谢  65-66
在读期间发表的论文和参与的项目  66

基于数据挖掘和机器学习的恶意代码检测技术研究

内容摘要

全文目录

相似论文