原文标题:Encrypted traffic classification: the QUIC case

原文作者:Jan Luxemburk, Karel Hynek, Tomas Cejka

原文链接:https://doi.org/10.23919/TMA58422.2023.10199052

发表会议:TMA

笔记作者:宋坤书@安全学术圈

主编:黄诚@安全学术圈

编辑:张贝宁@安全学术圈

1、研究背景

QUIC协议是一种新型的可靠传输协议,目前以获得广泛采用。它已经在基于Chromium的浏览器和Firefox中实现,Google、Meta和Microsoft等大型公司也用它传输核心服务。QUIC协议正逐步替代传统基于TCP的协议,如SMB协议就是基于QUIC实现的,HTTP/3也选择了QUIC作为传输层协议,这表明其在未来网络通信中存在着巨大的应用潜力。

与TCP协议相比,QUIC最显著的特性就是强制加密通信,所有数据都通过TLS加密,这使得攻击者无法对QUIC的有效载荷内容进行检测和分析。QUIC连接握手重用了 TLS握手的结构(如ClientHello、ServerHello、Certificate),但这些内容都被进行了加密混淆处理。因此,为了监测QUIC流量,需要额外解密这些握手消息,随着QUIC流量的增长,传统的监控方式难以处理如此大规模的解密,这使得我们思考如何在不解密的情况下对QUIC流量进行有效监测。

尽管近年来对加密流量(如TLS)分类的研究取得了一些成果,但在QUIC流量分类的研究仍处于起步阶段,现有研究的数据集较小且流量类别不足。本文使用大型运营商主干线路采集的CESNET-QUIC22数据集,评估了三种QUIC流量分类方法:多模态卷积神经网络(mmCNN)、LightGBM树模型和基于IP的分类器。该数据集包含超过1.53亿个流和102种服务标签,实验结果揭示了不同方法的性能差异和实际适应性,为未来的QUIC流量分类的研究提供了重要参考。

2、QUIC流量分类器设计

CESNET-QUIC22数据集收集了捷克CESNET2教育科研网络中连续四周QUIC流量,覆盖超过1.53亿条网络流,并附带丰富的特征信息,如基于流的统计数据(传输的数据包数、字节数)、数据包直方图及数据包元信息序列(数据包大小、到达时间间隔、方向等)。每条流量都标注了服务标签(来源于解密后的QUIC初始握手包中的SNI域获取的Web服务名称),共涵盖102种不同服务,其中包含Google的27项服务和Facebook的9项服务。

本文介绍了三种用于QUIC流量分类的模型,分别是多模态卷积神经网络(mm-CNN)、LightGBM和基于IP的分类器。所有模型均在CESNET-QUIC22数据集上进行训练与评估,使用第一周的3000万条流作为训练集,剩余三周中抽取了2000万条流作为测试集。评估指标包括准确率、宏平均F1分数和宏平均召回率。

2.1 深度学习分类器(多模态CNN)

多模态卷积神经网络(mm-CNN)是本研究采用的第一个模型,具备同时处理不同类型网络数据的能力。在输入方面,模型使用了数据包元数据序列(Sequence of Packet Metadata, PSTATS)和流量统计信息(Flow Statistics, FLOWSTATS):PSTATS是前三十个数据包的元信息序列(数据包大小、方向、包间间隔),FLOWSTATS是流的统计特征(双向传输的字节数、数据包数、持续时间和数据包直方图等)。实验中对数据进行预处理,其中,数据包大小和时间被进行了归一化处理,数据包方向被编码为±1,极端值被裁剪以抑制异常影响。

网络结构方面,mm-CNN采用了两条独立的输入链,分别处理PSTATS和FLOWSTATS。前者通过一维卷积层处理,后者则通过全连接层处理,两者在中间层合并形成共享表示。模型引入了批归一化,采用Dropout进行正则化、GeM进行池化操作,增强了模型的稳定性和泛化能力,最终输出结果通过softmax进行多分类。模型训练和评估遵循标准的深度学习流程,采用了AdamW优化器、one-cycle学习率调度器和交叉熵损失函数。多模态CNN的架构如下图:

本文通过SHAP方法[1]计算每个样本的特征重要性,并将其聚合(绝对值的均值)以展示模型的全局特征。通过将全局特征重要性归一化,使其总和为1。观察PSTATS特征重要性可以发现,前几个数据包的大小信息对分类结果贡献最大,尤其是第5个数据包,这可能与服务器证书传输有关,尽管其被加密,但其大小仍能泄露对服务识别有用的信息。mm-CNN模型PSTATS的特征重要性如下图:

2.2 LightGBM分类器

第二种模型是基于梯度提升决策树的LightGBM。它使用与mm-CNN相同的PSTATS和FLOWSTATS输入特征,并保持一致的数据预处理方式。与mm-CNN中使用卷积处理序列不同,LightGBM将每个包位置视为独立特征,缺乏邻接信息的建模能力,但依然取得了优异的性能,显示出树模型在加密流量分类中的潜力。

模型采用全量加载训练集,最多迭代100轮,并使用早停策略防止过拟合。通过Optuna自动调参以优化性能,调整的参数包括特征采样率、叶子数、正则化系数等。LightGBM的SHAP解释结果表明,其对前十个数据包的大小分布尤为敏感,方向信息相对不重要。该模型PSTATS的特征重要性如下图:

与mm-CNN相比,LightGBM更依赖统计特征FLOWSTATS,表明传统机器学习模型更偏好提取全局特征,而深度模型更能捕捉局部序列模式。LightGBM和mm-CNN分类器的FLOWSTATS特征重要性对比如下图:

2.3 基于IP的分类器

第三种方法是基于目的IP地址的简单规则分类器。该模型在训练时记录每个IP或其子网前缀下观察到的服务类别及出现次数,推理时根据目标IP查找训练集中最常见的服务进行预测。若目标IP未出现或存在多个服务共存,则退而采用子网进行匹配;若仍无法匹配,则放弃预测(记作错误)。

该方法几乎不依赖数据预处理,仅需统计出现频次,并设定两个超参数:子网匹配掩码P(如IPv4的/30)和精确匹配阈值exact_T。在实际评估中,发现设置exact_T为0表现最佳,即只要训练集中出现过该IP,便预测其出现最多的服务。子网匹配在此任务中效果较差,仅用于未见过的IP地址。尽管该方法简单高效,但对IP地址稳定性高度敏感,在动态IP场景下准确率明显下降,是一种受限明显的基线方法。基于IP的分类过程如下图:

三种模型的分类性能如下表:

3、分类器性能随时间的变化

虽然表1中模型性能测试结果显示LightGBM的分类准确率最高,但为了判断其是否是最佳模型,本文分析了三种分类器在一个月内的性能随时间变化的情况,发现LightGBM虽然整体精度最高,但召回率不如mm-CNN,尤其在处理非主流服务时表现较弱,而基于IP的方法虽然整体精度略低,但在不同测试周中的表现最为稳定。例如,在第二周到第三周之间,LightGBM和mm-CNN的分类准确率出现大幅下降,分别下降了9.45%和13.48%,而基于IP的分类器则表现稳定。

深入分析发现,性能下降主要源于Google服务中部分特征发生变化,尤其可能与TLS证书变更导致第五个数据包特征发生变化有关。通过将握手阶段数据(前8个数据包)置零,训练“无握手”版本模型后,性能在时间上变得更稳定,验证了该假设。这样做虽然准确率有了提升,但也带来了召回率的下降。分类器的每周准确率如下,上半部分为有握手阶段数据的情况,下半部分为去除握手阶段数据的情况:

尽管IP地址分类器在IP未变化时效果非常稳定,甚至部分服务始终保持的召回率超过99%,但一旦改变其IP地址,其性能会骤降至0%。相比之下,机器学习模型虽对数据漂移更敏感,但在应对IP变化时却更具鲁棒性。针对不同的服务,分类器召回率对比如下表:

4、本文贡献

  • 基于CESNET-QUIC22这一规模最大、类别标签最多、跨度最长的QUIC流量数据集,系统评估了多种分类模型在连续时间段上的性能,揭示了不同分类器的性能差异及其性能随时间的变化。

  • 首次指出去除初始握手数据包有助于提高模型对数据漂移的鲁棒性,这为加密流量建模提供了新的视角。

  • 为大规模QUIC流量分类任务设定了新的基准,并为为未来的研究奠定了基础。

参考文献:

[1] S. M. Lundberg and S.-I. Lee, “A unified approach to interpreting model predictions,” in Advances in Neural Information Processing Systems 30. Curran Associates, Inc., 2017, pp. 4765–4774. [Online]. Available: http://papers.nips.cc/paper/ 7062-a-unified-approach-to-interpreting-model-predictions.pdf

安全学术圈招募队友-ing

有兴趣加入学术圈的请联系 secdr#qq.com

声明:本文来自安全学术圈,版权归作者所有。文章内容仅代表作者独立观点,不代表安全内参立场,转载目的在于传递更多信息。如有侵权,请联系 anquanneican@163.com。