原文标题:When a RF beats a CNN and GRU, together—A comparison of deep learning and classical machine learning approaches for encrypted malware traffic classification

原文作者:Adi Lichy, Ofek Bader, Ran Dubin, Amit Dvir and Chen Hajaj

原文链接:https://www.sciencedirect.com/science/article/abs/pii/S0167404822003923

发表期刊:Computers & Security, 2022

笔记作者:孙汉林@安全学术圈

主编:黄诚@安全学术圈

编辑:张贝宁@安全学术圈

1、引言

随着深度学习的大热,不论是学术界还是工业界,大家对深度学习模型的信任与期望越来越高,大家都在卷深度学习,这也致使深度学习成了加密流量分析中的默认解。本文的目的是为了探究,复杂的深度学习模型是否优于传统机器学习模型,或者说,传统的机器学习模型是否已经够用了呢。

本文实验从三个数据集、多种分类任务中,较全面的对比传统机器学习与深度学习的分类表现。实验结果表明,传统机器学习方法在一些方面确实优于深度学习,但这并不代表传统机器学习可以取代深度学习在加密流量分析中的作用,只是证明在某些任务中,传统机器学习确实可以提供一个简易、高效的解决方案。

2、 数据集

本文基于现有的5个公开数据集,创建了3个用于实验的数据集。其中现有数据集分别为:

StratosphereIPS:由真实环境中的正常流量与恶意网络流量组成。

ISCX2016:由不同应用和流量类型的正常流量样本,以及VPN流量组成。

BOA:由不同操作系统、浏览器和应用程序产生的正常流量组成。

MTA:由恶意流量分析网站共享出的恶意流量样本组成。

USTC:由中科大产生的多种应用程序的正常流量和多种恶意软件的流量组成。

作者在合并数据集时,发现一个很有意思的现象:即用不同数据集的相同家族恶意流量训练出来的模型并不通用,且分类准确率为0,结果如下表所示。

所以,在创建数据集时,本文将不同数据集的相同家族恶意流量视为不同类别。创建的3个数据集如下所示。

MTAB:由MTA中的恶意流量与ISCX2016、StratoshpereIPS和BOA中的正常流量组成。

USTCB:由USTC中的恶意流量与ISCX2016、StratoshpereIPS和BOA中的正常流量组成。

MUB:由MTA、ISCX2016中的恶意流量与ISCX2016、StratoshpereIPS、BOA和USTC中的正常流量组成。

在处理数据时,本文首先过滤payload少于784字节的包,因为它们能提供的有用信息较少[1];其次,移除数据集中的无关协议,如SNMP、局域网广播协议等;最后,为了平衡加密恶意流量与正常流量的比例,对正常流量进行随机采样。各个数据集的数据类型占比如下图所示。

3、实验结果

传统机器学习方面,本文选取了基于距离的KNN、基于树的DT和基于集成的RF;深度学习则选取了DeepMAL、MalDIST、M1CNN3、M2CNN和MalDIST。

3.1 二分类

在二分类场景下,实验选择Accuracy为评估标准,其中KNN的表现最差,RF的表现最优,且优于深度学习模型中表现最好的MalDIST。

3.2 多分类

实验中多分类场景只针对恶意流量,由于不同类型的恶意流量数量规模并不一致,所以实验增添了额外3种评估标准。该结果与二分类结果相似,KNN最差,RF最优且优于MalDIST。

3.3 零日检测

为了探究RF和MalDIST对零日恶意流量检测的表现,实验每次将一个恶意家族作为测试集,其余家族和正常流量作为训练集进行二分类测试,评估指标为准确率。

实验结果表明,在MUB数据集上,RF在所有家族检测上都优于MalDIST;但在USTCB数据集上,RF在Geodo和Htbot等家族上表现更好,而MalDIST在Nsis和Zeus等家族上表现更佳,且在极端案例中差异尤为明显,如RF对Cridex识别率为90%,而MalDIST仅为0.6%;相反,RF无法识别Shifu和Zeus,而MalDIST能有效识别;在MUB数据集中也出现类似现象。

3.4 家族递增检测

为了分析随着恶意软件家族数量逐步增加对模型性能的影响,本实验为每个数据集依次加入新的家族,并记录每一步的模型准确率。

实验结果表明,随着家族数量的增加,在进行恶意和正常流量二分类时,两种模型都表现出较高的性能;在进行具体家族分类任务时,模型性能整体呈下降趋势,MTAB数据集上下降最显著。整体上,RF与MalDIST的表现大致相当,未出现明显优劣差距。

4、总结

基于本文的实验结果来看,RF的表现并不比深度学习差,当然该实验并不能全面对比传统机器学习与深度学习的差异,但至少证明了,在某些情况下,传统机器学习算法确实优于深度学习。

References

[1] Marín G, Caasas P, Capdehourat G. Deepmal-deep learning models for malware traffic detection and classification[C]//International Data Science Conference. Wiesbaden: Springer Fachmedien Wiesbaden, 2020: 105-112.

安全学术圈招募队友-ing

有兴趣加入学术圈的请联系 secdr#qq.com

声明:本文来自安全学术圈,版权归作者所有。文章内容仅代表作者独立观点,不代表安全内参立场,转载目的在于传递更多信息。如有侵权,请联系 anquanneican@163.com。