原文标题:Revolutionizing Encrypted Traffic Classification with MH-Net: A Multi-View Heterogeneous Graph Model

原文作者:Haozhen Zhang, Haodong Yue, Xi Xiao, Le Yu, Qing Li, Zhen Ling, Ye Zhang

原文链接:https://doi.org/10.1609/aaai.v39i1.32091

发表会议:AAAI

笔记作者:宋坤书@安全学术圈

主编:黄诚@安全学术圈

编辑:张贝宁@安全学术圈

1、研究背景

随着网络安全的重要性日益凸显,加密流量的分类已成为一项紧迫的任务。传统的深度包检测方法难以应对日益复杂的加密流量分类任务。近些年来的研究中有人提出了基于统计特征的机器学习方法,但其需要大量的特征工程,并且容易受到不可靠流量的影响;而基于表示学习的深度学习模型虽然表现出了较高的分类性能,但仍未能充分揭示流量字节之间的细粒度关联。为解决上述问题,本文提出了一种新型的加密流量分类模型MH-Net,通过构建多视角异构流量图,发现并利用流量字节之间潜在的细粒度关联,实现对网络流量的分类。

2、MH-Net框架

MH-Net是一种多视角异构图神经网络框架,旨在实现更精准的加密流量表示和识别。MH-Net由三大核心模块构成:多视角流量图构建、异构流量图表示学习和多任务联合训练机制。MH-Net首先从不同长度的流量单元构建流量图,捕捉字节级数据的多视角信息;随后,引入异构图建模机制,进一步细化头部和负载之间的语义关系,并利用HGNN提取判别性特征;最后,MH-Net同时进行包级与流级分类任务,并结合对比学习强化表示能力,从而获得鲁棒的流量特征表达。其模型架构如下图:

2.1 多视角流量图构建

为了更有效地挖掘加密流量中的潜在信息,MH-Net将原始流量数据划分为不同长度的流量单元(如N1-bit和N2-bit单元),从多个维度刻画数据特征,从而捕捉更具判别性的流量特征。同时,为了进一步挖掘流量单元序列之间潜在的细粒度关联,MH-Net基于点互信息(Point-wise Mutual Information, PMI)构建流量图,PMI在流量单元序列上采用滑动窗口,将流量单元序列中共现频率高的节点相连,生成多视角流量图 ,其中每个节点的特征是其对应的流量单元的值。

2.2 异构流量图表示学习

为了充分利用数据包头部和负载之间的异构性,MH-Net在原始流量图 和 中引入了三种类型的边(头部-头部、负载-负载、头部-负载),以此来构建异构流量图。随后,模型使用异构图神经网络(Heterogeneous Graph Neural Network, HGNN)对多视角异构图进行表示学习以提取流量图的判别特征。HGNN基于GraphSAGE模型实现,其针对不同边类型分别学习参数,并从邻居节点聚合信息以更新节点表示。最终,所有节点表示取平均,生成数据包级别的流量表示 和 ,进一步通过循环神经网络(RNN)整合多个数据包表示,生成流级别的流量表示。

2.3 多任务训练

通过流量分类任务和对比学习任务联合训练MH-Net,以实现对加密流量更有效的表示学习和分类建模。

2.3.1 流量分类任务

MH-Net同时执行流级和包级的流量分类任务,分别将两个长度的表示拼接后输入不共享参数的MLP分类器,并采用交叉熵损失函数计算流级和包级对应的流量分类任务损失 和 。

2.3.2 双层次对比学习

为了进一步提升MH-Net的表示能力,本文引入了双层对比学习机制,分别在包级和流级上进行特征增强训练。通过对比正样本和负样本,学习出具有语义不变性的流量表示。具体来说,MH-Net使用监督对比损失来充分利用数据标签信息,提高区分能力。

  • 包级对比学习:采用图结构增强(随机游走算法扰动原始图结构)和节点特征增强(随机翻转节点特征生成扰动图)对原始图进行增强,优化数据包级对比损失 ,使模型能识别结构或特征变化下的相同语义信息;

  • 流级对比学习:按照一定的概率随机丢弃流中的部分数据包生成增强流,通过对比学习优化流级对比损失 ,提升模型对流内全局特征的感知能力,从而获得更鲁棒的流级表示。

2.3.3 整体损失函数

MH-Net的总体训练目标采用端到端的多任务联合优化策略,综合数据包级分类分类 、流级分类损失 、数据包级对比损失 和流级对比损失 ,最终损失为:

α β

其中 α β 控制对比学习任务对整体训练的贡献。

3、实验设置

为全面评估MH-Net在数据包级和流级流量分类任务中的性能,本文在五个公开数据集(CIC-IoT、ISCX-VPN、ISCX-NonVPN、ISCX-Tor和ISCX-NonTor)上独立开展实验。数据集划分上,采用分层抽样按照9:1比例将流级数据集划分为训练集和测试集,包级数据则直接继承自所属流,标签与所属流保持一致。

在实现细节方面,MH-Net使用4-bit和8-bit流量单元构建多视角异构图,在多样性和计算成本间取得平衡。模型参数设置包括最大流长为15,HGNN层数为4,RNN初始化为LSTM,随机游走子图重启概率设为0.8,包丢弃率设为0.6,温度系数为0.07,对比损失系数α=1.0,β=0.5。实验在PyTorch和DGL实现,并在RTX 3080 GPU上重复运行五次取平均值。评估指标采用总体准确率和宏平均F1分数,并与多种主流包级和流级流量分类方法进行比较。

4、实验结果

4.1 性能表现

在CIC-IoT和ISCX系列数据集上进行的对比实验结果表明,MH-Net在流级和数据包级流量分类任务中均表现出显著优势。

在流级分类任务中,MH-Net在所有评估指标上取得最优成绩,显著超过传统统计特征方法和其他深度学习模型,包括TFE-GNN和YaTC。尽管后两者也使用原始字节表示,但由于未能有效挖掘字节间的细粒度相关性,整体性能仍不如MH-Net。此外,尽管ET-BERT在部分数据集上表现较好,但其高昂的计算成本限制了实际应用。流级分类结果对比如下表:

在包级分类任务中,MH-Net同样优于所有基线模型,即使与表现较好的EBSNN系列模型相比时仍具有明显优势。这主要归因于MH-Net更充分地挖掘了字节之间的语义关联,而传统方法如Securitas则由于其关键词匹配模式僵化,其性能远低于MH-Net。包级分类结果对比如下表:

总体而言,MH-Net在两个任务上均取得最优综合性能,有效验证了所提出模型在加密流量分类中的有效性。

4.2 消融分析

为了验证MH-Net架构设计的有效性,本文在CIC-IoT和ISCX-VPN数据集上进行了消融实验,重点分析不同模块对模型性能(F1-Score)的影响。消融实验结果如下表:

实验结果表明:

  • 8-bit流量单元对性能提升更明显,但4-bit流量单元仍提供了有价值的信息,二者结合有助于丰富表示能力;

  • 将异构图简化为同构图(即仅保留一种边类型)会导致性能显著下降,说明建模头部和负载之间的多类型关联是必要的;

  • 引入对比学习(特别是流级对比学习)显著增强了模型的判别能力,有效提升分类性能。

4.3 敏感性分析

本文在ISCX-VPN数据集上进行了敏感性分析,实验结果如下图:

实验表明,随着包级对比损失权重 α 的增加,模型性能稳定提升,这说明了包级对比学习的有效性;相比之下,流级对比损失权重 β 对模型性能影响较小,在 β 时效果最佳,这可能是流级增强中数据包随机丢弃的过度随机性造成,可以尝试引入可学习的增强机制来进一步提升表现。

4.4 流量单元分析

本文在ISCX-VPN数据集上采用了不同的流量单元长度和流量单元组合来进行对比实验,实验结果如下图:

在不同流量单元长度对比实验中发现,采用8-bit流量单元进行实验获得了最优分类性能,而其他粒度(如2-bit、4-bit等)的分类效果则明显下降,这可能是因为它们破坏了字节的完整性,且单位粒度越小,图结构越大,增加了建模难度。

在不同流量单元组合的对比实验中发现,4-bit和8-bit的组合性能最佳,其次是8-bit和10-bit的组合,这说明不同粒度的信息互补可以提升模型效果。但也存在粒度间相互干扰的情况,如2-bit和8-bit的组合实验效果反而下降,这意味着在信息互补和冗余干扰之间需要平衡,合理组合流量单元以进一步提升模型性能。

5、本文贡献

  • 提出了一种名为MH-Net的新型多视角异构图模型,通过将不同位数的流量比特聚合为多种类型的流量单元,构建多视角流量图,丰富了信息表达粒度,并提升了模型性能。

  • 引入三类流量单元相关性来刻画流量图的异构性,并基于异构图神经网络进行特征提取。同时结合包级和流级对比学习,以多任务方式增强流量表示的鲁棒性。

  • 在ISCX和CIC-IoT数据集上分别开展包级和流级流量分类实验,结果表明MH-Net在与多个基准方法的比较中整体表现最优,验证了其有效性和先进性。

安全学术圈招募队友-ing

有兴趣加入学术圈的请联系 secdr#qq.com

声明:本文来自安全学术圈,版权归作者所有。文章内容仅代表作者独立观点,不代表安全内参立场,转载目的在于传递更多信息。如有侵权,请联系 anquanneican@163.com。