学位论文 > 优秀研究生学位论文题录展示

基于聚类分析的网络流量分类研究

作 者: 何震凯
导 师: 阳爱民
学 校: 湖南工业大学
专 业: 计算机应用技术
关键词: 网络流量分类 特征选择 PCA 信息增益 DBSCAN算法 K-Means算法 聚类分析
分类号: TP393.06
类 型: 硕士论文
年 份: 2009年
下 载: 122次
引 用: 1次
阅 读: 论文下载
 

内容摘要


随着互联网技术的快速发展,新的应用类型(如FTP、DNS、P2P等)不断涌现,特别是一些采用非标准端口和协议加密形式进行通信的应用的出现,使得传统的基于端口和基于有效载荷的网络流量分类方法效率降低。这激发国内外很多研究者以应用类型作为类别,以网络中通信时所产生的流的统计特性作为特征,运用机器学习来进行网络流量分类研究。这篇论文也是采用机器学习方法研究网络流量分类以及相关技术。包括网络流量数据采集、特征产生、样本标识、特征选择,以及应用机器学习方法对网络流进行分类等技术。在基于机器学习方法的网络流量分类中,网络流量样本,包括训练样本、测试样本的获取是非常重要的一步。文章首先通过校园网络的中心交换机端口映射方法捕获网络报文,然后将采集到的报文按五元组(源IP地址、源端口号、目的IP地址、目的端口号、协议)解析为流,并统计报文大小、个数、时间、标志位等特征,形成了代表网络流的特征向量。最后结合基于端口、基于有效载荷和协议等多种方法,实现样本的自动标识,形成流样本,采用该方法进行标注正确率高。在特征选择方面,文章使用基于主成分分析(Principal Component Analysis,简称PCA)和基于信息增益等两种特征选择方法对两个数据集的候选特征集进行了特征优选,并得到了各自的最优特征子集。实验结果表明提出的方法可以减少特征的数量以便减少学习和分类的时间,同时还可以去掉不相关或冗余特征,提高分类的准确性。最后,文章应用DBSCAN(Density Based Spatial Clustering of Application with Noise)和K-Means两种聚类算法对经过特征选择的网络流进行聚类分析,根据聚类结果产生基于聚类分析的网络流量分类规则,并构建基于聚类分析的网络流量分类器。用实验结果验证了所提出和使用的方法对网络流量分类的有效性和可行性,达到了较高的查准率和总准确度;而且实现简单,算法效率高,是很好的网络流量分类研究方法,具有很强的研究意义和实用价值。

全文目录


摘要  4-5
ABSTRACT  5-10
第一章 绪论  10-16
  1.1 研究背景  10-11
  1.2 研究意义  11
  1.3 国内外研究现状  11-14
    1.3.1 基于端口(Port-based)的分类  11-12
    1.3.2 基于有效载荷(payload-based)的分类方法  12-13
    1.3.3 基于机器学习的网路流量分类方法现状  13-14
  1.4 文章主要内容及组织  14-16
第二章 数据采集及网络流的形成  16-27
  2.1 网络数据采集  16-19
    2.1.1 捕获方法  17-18
    2.1.2 数据集  18-19
  2.2 网络流的定义及特征计算  19-22
    2.2.1 流的定义  19
    2.2.2 流特征分析  19-21
    2.2.3 流的候选特征集  21-22
  2.3 流量应用类型的自动标识  22-26
    2.3.1 基于端口的识别  23
    2.3.2 基于特征串的识别  23-25
    2.3.3 基于协议的解析  25
    2.3.4 样本自动标识过程  25-26
  2.4 小结  26-27
第三章 网络流量的特征选择  27-36
  3.1 特征选择概述  27-29
    3.1.1 特征选择的分类  27
    3.1.2 特征空间的搜索方向  27-28
    3.1.3 搜索策略  28
    3.1.4 评价方法  28-29
  3.2 基于PCA 的网络流量特征选择  29-32
    3.2.1 PCA 降维原理  30
    3.2.2 基于PCA 的网络流量特征选择算法  30-31
    3.2.3 PCA 特征选择算法实验  31-32
  3.3 基于信息增益的网络流量特征分组及选择  32-35
    3.3.1 基于信息增益的网络流量特征分组及选择基础  32-33
    3.3.2 基于信息增益的网络流量特征分组及选择算法  33-34
    3.3.3 基于信息增益的网络流量特征分组及选择实验  34-35
  3.4 小结  35-36
第四章 基于聚类的网络流量分类及实验测评  36-51
  4.1 聚类技术概述  36-40
    4.1.1 聚类算法的类别  36
    4.1.2 层次聚类  36-37
    4.1.3 划分式聚类  37-38
    4.1.4 基于密度的聚类  38
    4.1.5 基于网格的聚类  38-39
    4.1.6 聚类算法比较与参数分析  39-40
  4.2 一种基于DBSCAN 的网络流量分类  40-43
    4.2.1 基于DBSCAN 算法的网络流量聚类的相关定义  40-41
    4.2.2 基于DBSCAN 的网络流量聚类方法  41-43
  4.3 基于K-Means 算法的网络流量分类  43-44
    4.3.1 经典K-Means 算法  43-44
    4.3.2 改进的K-Means 算法  44
  4.4 簇所属的应用类别的确定及分类器的分类规则  44-45
    4.4.1 簇所属的应用类别的确定  44-45
    4.4.2 基于聚类的分类器的分类规则  45
  4.5 基于聚类的分类器实验评测  45-50
    4.5.1 分类器评测标准  45
    4.5.2 实验数据集  45-46
    4.5.3 DBSCAN 聚类与分类实验  46-48
    4.5.4 K-Means 聚类分类实验  48-50
  4.6 小结  50-51
第五章 网络流量分类系统设计及实现  51-59
  5.1 系统整体框架  51
  5.2 数据采集模块  51-54
  5.3 网络流量分析及特征生成模块  54-57
  5.4 流量分类模块  57-58
  5.5 小结  58-59
第六章 总结与展望  59-61
  6.1 总结  59
  6.2 进一步的研究工作  59-61
参考文献  61-65
附录  65-66
致谢  66

相似论文

  1. 基于仿生模式识别的文本分类技术研究,TP391.1
  2. 唇读中的特征提取、选择与融合,TP391.41
  3. 牡丹EST-SSR引物开发及其亲缘关系分析,S685.11
  4. 高血压前期证候特征研究,R259
  5. 大学生综合素质测评研究,G645.5
  6. 大豆品种对腐竹品质的影响及其品质评价体系的初步构建,TS214.2
  7. 21个荷花品种遗传多样性的ISSR分析,S682.32
  8. 基于聚类分析的P2P流量识别算法的研究,TP393.02
  9. 桃杂交后代(F1)幼苗光合效能评价,S662.1
  10. 基于空间—频率域的织物组织识别新技术研究,TS101.923
  11. 南通市农业面源污染负荷研究与综合评价,X592
  12. 土壤环境功能区划研究,X321
  13. 基因表达谱数据聚类分析方法比较与大豆疫霉基因的网络构建,S435.651
  14. 大豆杂种优势及其遗传基础研究,S565.1
  15. 象草自交后代无性系的饲用价值及生物质能特性初步评价,S543.9
  16. K-means聚类优化算法的研究,TP311.13
  17. 语音情感识别的特征选择与特征产生,TP18
  18. 融合粒子群和蛙跳算法的模糊C-均值聚类算法研究,TP18
  19. 基于同化能力杂种优势早期评价的桃光合特性研究,S662.1
  20. 云南省直管县改革研究,D630
  21. 基于分治法的聚类方法研究,TP311.13

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 计算机网络 > 一般性问题 > 计算机网络测试、运行
© 2012 www.xueweilunwen.com