基于多模态学习的混淆隧道流量行为检测方案

原文标题：A Multi-modal Learning-Based Behavior Identification Scheme for Obfuscated Tunneling Traffic
原文作者：Yong Zhou, Weiwei Liu and Jinsheng Sun
原文链接：https://dl.acm.org/doi/abs/10.1145/3703187.3703285
发表会议：CISAI, 2024
笔记作者：孙汉林@安全学术圈
主编：黄诚@安全学术圈
编辑：张贝宁@安全学术圈

1 引言

本文针对V2Ray、Shadowsocks等混淆隧道流量检测问题，提出了一种基于多模态学习的识别框架CNPT-BiSSM。该框架利用卷积神经预归一化Transformer（Convolutional Neural Pre-Normalized Transformer，CNPT）学习多维流量统计特征，并用双向状态空间模型（Bi-directional State Space Model，BiSSM）处理包长度序列，最终将特征融合并分类。实验自建数据集，其中包含了60,923个样本，涵盖了五种常见的数据类型。实验结果表明，本方案的平均识别准确率达到93.54%，优于现有的加密流量分类方法。

本文贡献：

本文提出了一种基于滑动窗口分割的序列流量表示方法，用于捕捉细粒度特征并构建多粒度流量表征；
本文设计了结合卷积神经网络（CNN）、预归一化Transformer和双向状态空间模型（BiSSM）的多模态学习框架，以提取和学习流量的统计特征和时空序列特征；
本方案在自建数据集上进行评估，识别准确率达到93.54%，优于现有方法。

2 方案设计

本文提出CNPT-BiSSM模型，模型由三部分组成：输入层、多模态融合层和输出层。输入层负责对混淆隧道流量进行预处理与特征提取；多模态融合层通过CNPT和BiSSM模型处理输入特征，生成不同模态下的嵌入向量；输出层采用门控融合策略整合多模态嵌入向量，输出最终识别结果，具体方案框架如图1所示。

2.1 输入层

在输入层，模型从原始网络流量文件中提取时空特征，主要包括：

包数量特征：包含数据包总数、上下行数据包数量及其比例，首尾30个数据包的分布，以及每20个数据包内的上下行标准差、均值、中位数、最小值和最大值，用于刻画数据包的分布和传输方向。
包时间特征：包含前50个上下行数据包的时间间隔、每秒到达的上下行数据包数量及其均值、最大值、最小值和标准差，用于刻画数据流的时间动态性。
包长度序列特征：包含流量中每个数据包的长度，通过序列模式的局部变化，反映流量所携带的资源类型，识别伪装流量中的数据包插入和数据包拆分现象。

2.2 多模态融合层

在输入层完成特征提取后，多模态融合层进一步处理这些特征，具体包括两大模块：

CNPT模块：将统计类特征（包数量特征和包时间特征）输入至CNPT模型。CNPT由卷积神经网络（CNN）和预归一化Transformer（PreLN Transformer）组成。CNN通过级联的卷积层与池化层提取流量局部空间特征，增强模型的空间特征学习能力；而预归一化Transformer则利用自注意力机制捕捉全局依赖关系，并通过层归一化提高训练效率、加速收敛并增强模型的泛化能力。为了优化性能，本文采用预层归一化（Pre-Layer Normalization，PreLN）方法，以提升对隐匿隧道流量的识别精度，并加速模型的训练过程。
BiSSM模块：针对传统基于数据包长度序列分类方法在混淆流量下失效的问题，本文提出一种基于滑动窗口分割的序列处理方法。通过固定大小的滑动窗口（如64，步长32）将包长度序列划分为局部块，如图2所示，以捕获局部时空变化特征。随后，采用双向状态空间模型（BiSSM）对块间和块内的依赖关系进行建模。BiSSM利用双向建模结构，结合共享参数的模型混合器和门控机制，有效刻画混淆隧道流量的动态变化特性，并生成融合后的序列嵌入表示。

2.3 输出层

输出层将多模态融合层生成的嵌入向量进一步整合，输出最终的行为识别概率。具体流程如下：

拼接与线性变换：将CNPT模型输出与BiSSM模型输出进行拼接，通过全连接层线性变换生成中间特征向量h。
权重计算：利用Softmax函数对h进行处理，生成动态权重，分别对应CNPT与BiSSM输出的重要性调节系数。
加权融合：依据计算得到的权重，对CNPT和BiSSM的输出进行加权求和，得到最终特征向量y，作为流量行为识别的决策依据。

通过上述门控融合策略，输出层能够根据不同特征的重要性动态调整，从而实现对混淆隧道流量行为的高准确率识别。

3 实验结果与分析

本节通过自建数据集，评估了所提CNPT-BiSSM模型的性能。为了全面评估模型的有效性，本文将CNPT-BiSSM与三种最先进的流量分类方法进行比较，包括ETC-PS[1]、FS-Net[2]和NeuTic[3]。

3.1 数据集

本文使用自建数据集进行评估，数据集涵盖了大多数常见的流量类型，有较强代表性，具体如表1所示。在数据集构建过程中，数据被随机划分为训练集、验证集和测试集，比例为7:1:2。对于每个流量类别，正常流量占样本的80%，异常（混淆隧道）流量占剩余的20%。本研究采用准确率（Accuracy）、精确率（Precision）、召回率（Recall）和F1分数（F1-score）四项指标对系统性能进行评估，并通过与其他方法的对比，客观展示CNPT-BiSSM模型的优越性和实用性。

3.2 模型参数设置

为了优化CNPT-BiSSM模型的性能，本研究系统地探讨了滑动窗口分割的参数（窗口大小和步长）。具体来说，窗口大小从16到128字节，以步长8进行调整，并针对每个窗口大小分别测试了三种步长：1/4、2/4和3/4的窗口大小。实验结果（如图3所示）表明，当窗口大小为64字节，步长为32字节时，模型表现出最高的准确率。这因为适当的窗口大小和步长能够更好地捕捉上下文信息，而进一步增大窗口或步长则可能引入额外复杂性，导致性能下降，可能与过拟合有关。因此，本方案确定以64字节窗口大小和32字节步长作为CNPT-BiSSM模型的最佳参数，并在后续实验中采用该设置进行评估。

3.3 实验结果

本文评估了CNPT-BiSSM在V2Ray和SS上的五种流量类型的识别性能（见图4(a)和(b)）。实验结果表明，CNPT-BiSSM在所有五种类型的流量上均表现优异，所有评估指标均超过88%。特别是在SS流量上，这可能是因为SS使用较简单的混淆方式，而V2Ray采用了更复杂的混淆加密协议（VMess）。

在不同流量类型的识别表现上，视频流量表现最佳，SS加密情况下的识别准确率约为97%；而网页浏览流量的识别效果较差，准确率约为93%。这可能是因为视频流量的特征较为稳定，而网页浏览流量的模式更加复杂，识别难度更大。

为进一步评估CNPT-BiSSM的有效性，本研究将其与三种先进的流量识别方法进行了对比：ETC-PS、FS-Net和NeuTic。实验结果显示，CNPT-BiSSM在行为识别性能上比ETC-PS提高了约9%，比FS-Net和NeuTic分别提高了约4%和5%，进一步证明了CNPT-BiSSM在混淆隧道流量行为识别中的优越性。

References

[1] Xu, Shi-Jie, et al. "Seeing traffic paths: Encrypted traffic classification with path signature features." IEEE Transactions on Information Forensics and Security 17 (2022): 2166-2181.

[2] Liu, Chang, et al. "Fs-net: A flow sequence network for encrypted traffic classification." IEEE INFOCOM 2019-IEEE Conference On Computer Communications. IEEE, 2019.

[3] Yun, Xiaochun, et al. "Encrypted TLS traffic classification on cloud platforms." IEEE/ACM Transactions On Networking 31.1 (2022): 164-177.

安全学术圈招募队友-ing
有兴趣加入学术圈的请联系 secdr#qq.com

声明：本文来自安全学术圈，版权归作者所有。文章内容仅代表作者独立观点，不代表安全内参立场，转载目的在于传递更多信息。如有侵权，请联系 anquanneican@163.com。