原文标题:A Multi-modal Learning-Based Behavior Identification Scheme for Obfuscated Tunneling Traffic
原文作者:Yong Zhou, Weiwei Liu and Jinsheng Sun原文链接:https://dl.acm.org/doi/abs/10.1145/3703187.3703285发表会议:CISAI, 2024笔记作者:孙汉林@安全学术圈主编:黄诚@安全学术圈编辑:张贝宁@安全学术圈
1 引言
本文针对V2Ray、Shadowsocks等混淆隧道流量检测问题,提出了一种基于多模态学习的识别框架CNPT-BiSSM。该框架利用卷积神经预归一化Transformer(Convolutional Neural Pre-Normalized Transformer,CNPT)学习多维流量统计特征,并用双向状态空间模型(Bi-directional State Space Model,BiSSM)处理包长度序列,最终将特征融合并分类。实验自建数据集,其中包含了60,923个样本,涵盖了五种常见的数据类型。实验结果表明,本方案的平均识别准确率达到93.54%,优于现有的加密流量分类方法。
本文贡献:
本文提出了一种基于滑动窗口分割的序列流量表示方法,用于捕捉细粒度特征并构建多粒度流量表征;
本文设计了结合卷积神经网络(CNN)、预归一化Transformer和双向状态空间模型(BiSSM)的多模态学习框架,以提取和学习流量的统计特征和时空序列特征;
本方案在自建数据集上进行评估,识别准确率达到93.54%,优于现有方法。
2 方案设计
本文提出CNPT-BiSSM模型,模型由三部分组成:输入层、多模态融合层和输出层。输入层负责对混淆隧道流量进行预处理与特征提取;多模态融合层通过CNPT和BiSSM模型处理输入特征,生成不同模态下的嵌入向量;输出层采用门控融合策略整合多模态嵌入向量,输出最终识别结果,具体方案框架如图1所示。
2.1 输入层
在输入层,模型从原始网络流量文件中提取时空特征,主要包括:
包数量特征:包含数据包总数、上下行数据包数量及其比例,首尾30个数据包的分布,以及每20个数据包内的上下行标准差、均值、中位数、最小值和最大值,用于刻画数据包的分布和传输方向。
包时间特征:包含前50个上下行数据包的时间间隔、每秒到达的上下行数据包数量及其均值、最大值、最小值和标准差,用于刻画数据流的时间动态性。
包长度序列特征:包含流量中每个数据包的长度,通过序列模式的局部变化,反映流量所携带的资源类型,识别伪装流量中的数据包插入和数据包拆分现象。
2.2 多模态融合层
在输入层完成特征提取后,多模态融合层进一步处理这些特征,具体包括两大模块:
CNPT模块:将统计类特征(包数量特征和包时间特征)输入至CNPT模型。CNPT由卷积神经网络(CNN)和预归一化Transformer(PreLN Transformer)组成。CNN通过级联的卷积层与池化层提取流量局部空间特征,增强模型的空间特征学习能力;而预归一化Transformer则利用自注意力机制捕捉全局依赖关系,并通过层归一化提高训练效率、加速收敛并增强模型的泛化能力。为了优化性能,本文采用预层归一化(Pre-Layer Normalization,PreLN)方法,以提升对隐匿隧道流量的识别精度,并加速模型的训练过程。
BiSSM模块:针对传统基于数据包长度序列分类方法在混淆流量下失效的问题,本文提出一种基于滑动窗口分割的序列处理方法。通过固定大小的滑动窗口(如64,步长32)将包长度序列划分为局部块,如图2所示,以捕获局部时空变化特征。随后,采用双向状态空间模型(BiSSM)对块间和块内的依赖关系进行建模。BiSSM利用双向建模结构,结合共享参数的模型混合器和门控机制,有效刻画混淆隧道流量的动态变化特性,并生成融合后的序列嵌入表示。
2.3 输出层
输出层将多模态融合层生成的嵌入向量进一步整合,输出最终的行为识别概率。具体流程如下:
拼接与线性变换:将CNPT模型输出与BiSSM模型输出进行拼接,通过全连接层线性变换生成中间特征向量h。
权重计算:利用Softmax函数对h进行处理,生成动态权重,分别对应CNPT与BiSSM输出的重要性调节系数。
加权融合:依据计算得到的权重,对CNPT和BiSSM的输出进行加权求和,得到最终特征向量y,作为流量行为识别的决策依据。
通过上述门控融合策略,输出层能够根据不同特征的重要性动态调整,从而实现对混淆隧道流量行为的高准确率识别。
3 实验结果与分析
本节通过自建数据集,评估了所提CNPT-BiSSM模型的性能。为了全面评估模型的有效性,本文将CNPT-BiSSM与三种最先进的流量分类方法进行比较,包括ETC-PS[1]、FS-Net[2]和NeuTic[3]。
3.1 数据集
本文使用自建数据集进行评估,数据集涵盖了大多数常见的流量类型,有较强代表性,具体如表1所示。在数据集构建过程中,数据被随机划分为训练集、验证集和测试集,比例为7:1:2。对于每个流量类别,正常流量占样本的80%,异常(混淆隧道)流量占剩余的20%。本研究采用准确率(Accuracy)、精确率(Precision)、召回率(Recall)和F1分数(F1-score)四项指标对系统性能进行评估,并通过与其他方法的对比,客观展示CNPT-BiSSM模型的优越性和实用性。
3.2 模型参数设置
为了优化CNPT-BiSSM模型的性能,本研究系统地探讨了滑动窗口分割的参数(窗口大小和步长)。具体来说,窗口大小从16到128字节,以步长8进行调整,并针对每个窗口大小分别测试了三种步长:1/4、2/4和3/4的窗口大小。实验结果(如图3所示)表明,当窗口大小为64字节,步长为32字节时,模型表现出最高的准确率。这因为适当的窗口大小和步长能够更好地捕捉上下文信息,而进一步增大窗口或步长则可能引入额外复杂性,导致性能下降,可能与过拟合有关。因此,本方案确定以64字节窗口大小和32字节步长作为CNPT-BiSSM模型的最佳参数,并在后续实验中采用该设置进行评估。
3.3 实验结果
本文评估了CNPT-BiSSM在V2Ray和SS上的五种流量类型的识别性能(见图4(a)和(b))。实验结果表明,CNPT-BiSSM在所有五种类型的流量上均表现优异,所有评估指标均超过88%。特别是在SS流量上,这可能是因为SS使用较简单的混淆方式,而V2Ray采用了更复杂的混淆加密协议(VMess)。
在不同流量类型的识别表现上,视频流量表现最佳,SS加密情况下的识别准确率约为97%;而网页浏览流量的识别效果较差,准确率约为93%。这可能是因为视频流量的特征较为稳定,而网页浏览流量的模式更加复杂,识别难度更大。
为进一步评估CNPT-BiSSM的有效性,本研究将其与三种先进的流量识别方法进行了对比:ETC-PS、FS-Net和NeuTic。实验结果显示,CNPT-BiSSM在行为识别性能上比ETC-PS提高了约9%,比FS-Net和NeuTic分别提高了约4%和5%,进一步证明了CNPT-BiSSM在混淆隧道流量行为识别中的优越性。
References
[1] Xu, Shi-Jie, et al. "Seeing traffic paths: Encrypted traffic classification with path signature features." IEEE Transactions on Information Forensics and Security 17 (2022): 2166-2181.
[2] Liu, Chang, et al. "Fs-net: A flow sequence network for encrypted traffic classification." IEEE INFOCOM 2019-IEEE Conference On Computer Communications. IEEE, 2019.
[3] Yun, Xiaochun, et al. "Encrypted TLS traffic classification on cloud platforms." IEEE/ACM Transactions On Networking 31.1 (2022): 164-177.
安全学术圈招募队友-ing
有兴趣加入学术圈的请联系 secdr#qq.com
声明:本文来自安全学术圈,版权归作者所有。文章内容仅代表作者独立观点,不代表安全内参立场,转载目的在于传递更多信息。如有侵权,请联系 anquanneican@163.com。