原文标题:Enhancing network intrusion detection performance using generative adversarial networks
原文作者:Xinxing Zhao, Kar Wai Fok, Vrizlynn L.L. Thing原文链接:https://doi.org/10.1016/j.cose.2024.104005发表会议:Computers & Security笔记作者:张琦驹@安全学术圈主编:黄诚@安全学术圈编辑:张贝宁@安全学术圈
1、引言
网络入侵检测系统(Network Intrusion Detection System, NIDS)在保护关键数字基础设施免受网络威胁方面发挥着关键作用,基于机器学习的检测模型在 NIDS 中应用广泛。然而,这些模型的有效性常受限于不断演变的入侵技术以及训练样本缺乏多样性和更新不足等问题。其中,样本稀缺(尤其是能反映网络攻击的异常流量数据匮乏)和类别不平衡(正常流量远多于攻击实例)是 NIDS 训练过程中的显著障碍,这导致训练出的入侵检测模型性能受限。本文因此提出一种通过整合生成对抗网络(Generative Adversarial Networks, GANs)来增强 NIDS 性能的新方法,利用 GANs 生成能紧密模拟真实网络行为的合成网络流量数据,以解决训练数据集存在的关键挑战,提升对攻击的检测能力。
2、GAN 模型介绍
为解决网络入侵检测系统(NIDS)训练中存在的样本稀缺和类别不平衡问题,研究中引入了三种生成对抗网络(GAN)模型,通过生成模拟真实网络行为的合成异常流量数据来增强检测性能。
Vanilla GAN(基础 GAN)。以二元交叉熵为损失函数,通过生成器与判别器的对抗训练生成模拟数据。生成器专注于产出接近真实分布的样本,判别器则致力于区分真实与生成数据,二者在博弈中共同优化。该模型在生成 Botnet 样本时,能较好保留原始数据特征,与原始样本的余弦相似度较高,生成的样本可有效提升 IDS 对 Botnet 攻击的检测性能
Wasserstein GAN(WGAN)。针对基础 GAN 训练不稳定、易出现模式崩溃等问题,采用 Wasserstein 距离(地球移动距离)作为损失函数。这种距离度量方式能提供更平滑的梯度,增强训练稳定性,使生成的数据分布更接近真实数据分布。在实验中,其生成样本与原始样本的相似度表现优异,对 IDS 性能的提升效果显著,尤其在大样本量下,能大幅提高 Botnet 检测的 F1-score。
Conditional Tabular GAN(CTGAN)。专为表格数据设计,支持条件生成,可保留原始数据的统计特性和特征间依赖关系。其生成器和判别器结构更复杂,能结合标签信息生成特定类别的样本。不过,在本研究中,其生成的 Botnet 样本与原始样本的相似度略低于前两种模型,初始提升效果有限,但随着生成样本量增加,仍能有效增强 IDS 的检测能力。
3、研究方法
本研究旨在通过生成对抗网络(GANs)生成合成攻击样本,解决网络入侵检测系统(NIDS)训练中的样本稀缺和类别不平衡问题,提升对特定攻击类型的检测性能。 如下文所示为使用生成对抗网络提升NIDS性能的流程:
3. 1 数据集选择与处理
研究采用 CIC-IDS2017 数据集,该数据集是公开的基准数据集,包含多种网络活动和攻击类型,适合评估入侵检测系统。为减少类别不平衡影响,对原始数据进行重新分组:将相似攻击类型(如不同 DoS 攻击)合并为更通用的类别(如 “Dos” 类),最终形成 8 个新类别,包括 Benign、Botnet、DDoS、DoS 等,以便后续研究。
3. 2 IDS 基线模型构建
选择随机森林(RF)模型作为 NIDS 的基线分类器,因其在 CIC-IDS2017 数据集上已有良好的分类表现记录。使用卡方检验选择排名前 32 的特征,以 8:2 的比例划分训练集和测试集,训练后该基线模型在 Botnet 类上的初始性能为:精确率 0.87、召回率 0.46、F1 分数 0.60,成为后续性能提升的对比基准。
3. 3 GAN 模型设计与样本生成
为生成高质量的 Botnet 攻击样本,研究实现了三种 GAN 模型,并针对原始 Botnet 数据特点设计生成策略:
模型选择:包括 Vanilla GAN(以二元交叉熵为损失函数)、Wasserstein GAN(WGAN,采用 Wasserstein 距离作为损失函数,提升训练稳定性)、Conditional Tabular GAN(CTGAN,专为表格数据设计,支持条件生成)。
样本生成策略:将原始 Botnet 样本按目的端口(8080 与非 8080)及特征分布细分,基于细分片段按比例生成 4 倍、49 倍、99 倍于原始数量的样本,确保生成数据与原始数据的分布一致性。
3. 4 生成样本质量评估
通过三种方法验证生成样本与原始样本的相似度,确保生成数据的有效性:
余弦相似度:计算 8 个关键特征的余弦相似度,值越接近 1 表示相似度越高,结果显示 Vanilla GAN 和 WGAN 的相似度优于 CTGAN。
累积和对比:对比特征累积和曲线,Vanilla GAN 和 WGAN 生成样本的累积和与原始样本更接近。
机器学习验证:利用 RF 和决策树模型验证生成样本的分类一致性,结果表明生成样本能被模型正确识别,与原始样本的分类表现一致
4、实验评估
研究的数据基础与对比方法如下:数据规模方面,采用的 CIC-IDS2017 数据集包含丰富的网络活动,经处理后形成 8 个新类别,其中 Botnet 类原始样本量为 1956 个。对比方法围绕不同 GAN 模型生成样本对 NIDS 性能的提升效果展开,具体对比了 Vanilla GAN、Wasserstein GAN(WGAN)和 Conditional Tabular GAN(CTGAN)在生成 4 倍、49 倍、99 倍于原始数量的 Botnet 样本时,NIDS 在精确率、召回率和 F1 分数上的表现。
下表展示了不同 GAN 模型生成样本在 NIDS 对生成 Botnet 样本分类中的性能对比:
实验结果表明,随着生成样本量的增加,三种 GAN 模型生成的样本均能提升 NIDS 对生成 Botnet 样本的分类性能。其中,WGAN 和 Vanilla GAN 在 49 倍和 99 倍样本量时,精确率、召回率和 F1 分数均达到 1.00,表现优异;CTGAN 在 4 倍样本量时性能相对较弱(F1=0.81),但随着样本量增加至 99 倍,F1 分数提升至 0.97,性能逐步改善。
进一步分析可知,WGAN 和 Vanilla GAN 在生成样本的质量上更优,这与之前对生成样本与原始样本相似度的评估结果一致,即它们生成的样本与原始样本在关键特征上的余弦相似度更高、累积和曲线更接近,因此能更好地辅助 NIDS 进行分类训练。
下表展示了不同 GAN 模型生成样本在 NIDS 对原始 Botnet 样本分类中的性能对比:
该表呈现了 NIDS 在融入不同 GAN 模型生成的样本后,对原始 Botnet 样本的检测性能。结果显示,WGAN 在 99 倍样本量时表现最佳,F1 分数从基线的 0.60 提升至 0.90,召回率从 0.46 提升至 0.82,精确率保持 1.00;Vanilla GAN 在 99 倍样本量时 F1 分数也达到 0.90,与 WGAN 相当;CTGAN 在 99 倍样本量时 F1 分数为 0.87,虽不及前两者,但相较其 4 倍样本量时(F1=0.60)有明显提升。
这一结果表明,生成样本量的增加有助于 NIDS 更好地学习 Botnet 样本的特征,从而提升对原始样本的检测能力,且 WGAN 和 Vanilla GAN 在性能提升上更为显著,再次印证了其生成样本的有效性。
此外,实验还评估了融入 GAN 生成样本后 NIDS 对其他类别的分类性能。下表展示了融入GAN生成样本后NIDS对其他类别的分类性能:
结果显示,除 Web Attack 和 Infiltration 类有轻微波动(提升在 4% 以内)外,其他类别(如 Benign、DoS、DDoS 等)的性能保持稳定。这说明生成的 Botnet 样本仅针对性地提升了 NIDS 对 Botnet 类的检测性能,未对其他类别的检测产生负面影响,验证了该方法的可靠性。
与现有研究相比,本研究中 WGAN 在 99 倍样本量时对 Botnet 类的分类性能(F1=0.90)优于 Keserwani 等人使用 Grey Wolf Optimization 和 Particle Swarm Optimization 结合 RF 模型的结果(F1=0.75),也优于 Lee 等人使用 GAN 生成 10,000 个 Botnet 样本时的结果(F1=0.66),展现出该方法在提升 NIDS 性能方面的优势。
5、总结
本文提出了一种通过整合生成对抗网络(GANs)来增强网络入侵检测系统(NIDS)性能的新方法,该方法利用 GANs 生成能紧密模拟真实网络行为的合成异常流量数据,以解决 NIDS 训练中存在的数据稀缺问题。研究实现了三种 GAN 模型(Vanilla GAN、Wasserstein GAN、Conditional Tabular GAN),针对 CIC-IDS2017 数据集生成特定的 Botnet 攻击样本,并将其融入训练集以提升 NIDS 性能。实验表明,随着生成样本量的增加(4 倍、49 倍、99 倍于原始样本),三种 GAN 模型均能显著提升 NIDS 对 Botnet 的检测性能,其中 Wasserstein GAN 在 99 倍样本量时效果最优,使原始 Botnet 样本检测的 F1 分数从 0.60 提升至 0.90,且对其他类别的检测性能影响较小。该方法成功解决了 NIDS 训练数据稀缺的问题,为增强网络安全防御能力提供了有效途径。
安全学术圈招募队友-ing
有兴趣加入学术圈的请联系 secdr#qq.com
声明:本文来自安全学术圈,版权归作者所有。文章内容仅代表作者独立观点,不代表安全内参立场,转载目的在于传递更多信息。如有侵权,请联系 anquanneican@163.com。