基于训练数据分析的神经网络劫持攻击

原文标题：Hijacking Attacks against Neural Network by Analyzing Training Data
原文作者：Yunjie Ge，Qian Wang，Huayang Huang，Qi Li，Cong Wang，Chao Shen，Lingchen Zhao，Peipei Jiang，Zheng Fang，Shenyi Zhang
原文链接：https://www.usenix.org/system/files/usenixsecurity24-ge-hijacking.pdf
发表会议：USENIX"24
笔记作者：王彦@安全学术圈
主编：黄诚@安全学术圈

1. 总体介绍

在现实生活的应用中，深度神经网络虽表现卓越，却极易受到两类攻击：对抗样本和后门攻击。后门攻击虽然强大，通常依赖于篡改训练数据或代码，但由于需要篡改训练过程而实施门槛较高；对抗样本在推理阶段发起攻击，虽然更灵活，但在黑盒场景下成功率低，计算成本高。这些攻击各有优劣，使得实际中难以兼顾实用性与攻击性能。

为了解决这一矛盾，作者提出了 CleanSheet，一种具有相当于后门攻击的性能，并能在更易于管理的情况下运行的新型攻击方法。CleanSheet 只需了解部分训练数据，并且在训练过程中不需要直接干预，不仅能够攻击黑盒模型，还表现出卓越的攻击成功率、可迁移性和鲁棒性。CleanSheet 的核心思想是：从中干净训练数据中提取鲁棒特征并构造触发器，这些触发器可加入任意输入，诱导模型输出攻击者预设的分类结果。图 1 通过注意力图展示了干净数据中的鲁棒特征（例如象鼻、象牙等）能显著吸引模型注意力，说明模型易受到这类特征的影响，从而成为潜在攻击入口。CleanSheet 兼具 AE 攻击的实用性和后门攻击的高成功率。

本文的贡献主要包括三方面：揭示了深度神经网络中基于训练数据的新的脆弱性；提出了基于知识提炼与元学习的通用触发器生成框架；并通过大量实验验证了 CleanSheet 的泛化性、攻击成功率与鲁棒性。

2. 背景知识及相关技术

深度神经网络易受恶意攻击，这些攻击旨在破坏其性能或功能。以前的研究主要集中在两大类攻击：后门攻击与对抗样本攻击。。

2.1 后门攻击

后门攻击通常发生在模型训练阶段。攻击者通过篡改训练数据或代码，使模型对特定输入模式（称为“触发器”）产生异常敏感。在推理阶段，攻击者只需将触发器嵌入输入即可激活后门，控制模型输出预期结果（如目标类别）。后门攻击的数学形式化如式（1）所示：

分类任务后门任务

: 模型对输入的预测输出;

: 损失函数 (如交叉熵);
: 对输入应用触发器的操作;
: 攻击者预设的目标标签;
: 模型参数。

其中，模型需同时优化正常分类任务和后门任务。

后门攻击通常通过三种方式实现：数据投毒（向训练集注入带触发器的样本）、代码污染（修改训练逻辑以检测触发器）、以及模型参数修改（直接调整模型参数以植入后门）。近年来提出的干净标签后门攻击无需修改标签，但仍需主动污染训练数据。相比之下，本文提出的 CleanSheet 仅需部分训练数据知识，无需修改数据或干扰训练过程，显著降低了攻击假设条件。

2.2 对抗样本攻击

对抗样本攻击发生在推理阶段，通过向输入添加微小扰动（如修改像素值）使模型误分类。其优化目标如式（2）所示：

:对抗性示例;
:损失函数;
ε:扰动最大允许范数（如约束）；
: 目标误分类标签;

白盒攻击（已知模型结构和参数）效果显著，但在实际黑盒场景中（如商业API），攻击者缺乏内部信息，导致生成对抗样本的成功率和迁移性受限。通用对抗扰动（UAP）虽能针对白盒模型生成单一扰动攻击多输入，但对黑盒模型效果不佳。

相比上述方法，CleanSheet 更适合真实黑盒场景：攻击者只需获得一小部分训练数据，无需接触模型参数或训练流程，即可有效实施攻击。

3. 方案设计

CleanSheet 攻击的核心流程如图 2 所示，分为两大阶段：在替代模型上生成触发器，以及在黑盒模型上使用这些触发器实现劫持攻击。

为实现“可迁移触发器”的生成，CleanSheet 将问题建模为多目标优化任务（见公式 10），其中既要保证输入被错误分类为目标标签，又要确保修改后的输入对人类依旧可识别（example invariance）。输入变换函数通过掩码 M 控制触发器位置与 ∆ 值叠加。

图 3 展示了模型在不同训练 epoch 下对 CIFAR-10 图像的注意力变化：随着训练的深入，模型越来越关注目标物体本身的鲁棒特征（如耳朵、象牙），从而为触发器构造提供理论支持。

为避免替代模型过拟合，CleanSheet 提出基于竞争式知识蒸馏的训练策略（图2中 dashed box ），即由多个学生模型组成子模型集合，通过精度选择最优者作为教师模型，为其他模型提供 soft label 引导。图 3 中,训练至 epoch 5 后鲁棒特征已基本收敛，说明无需过多训练轮次。

此外，作者采用了顺序元学习（SMAML）策略增强跨模型迁移能力。在 inner loop 中，触发器在每个替代模型上迭代优化，捕捉模型专属的鲁棒特征；在 outer loop 中，多个触发器通过平均聚合，提炼出跨模型共享的鲁棒特征。最终产出具备广泛攻击能力的通用触发器。

4. 实验评估

实验对象包括五个图像数据集（CIFAR-10/100、GTSRB、SVHN、IMAGENET）与一个语音数据集（Google Speech Command v2），共使用了186个模型。指标为正常准确率（CA）与攻击成功率（ASR）。

如表 1-3 所示，CleanSheet 在图像分类任务中的平均 ASR 达到 97%-99%；在 IMAGENET 1000 类任务上，即便攻击者只使用前100类数据进行训练，仍可达成 70.3% 的 top-5 成功率，展示出极强的泛化性。

CleanSheet 同样支持物理攻击，如图像打印后再拍照输入，仍可在 10 个模型中实现平均 68.2% 的 ASR（表 5）。图 4 展示了不同范数约束（l1/l2/l∞）下的触发器图像，验证了 CleanSheet 生成的触发器具有目标类的视觉特征。

表 6 讨论了在 non-IID 设置下的鲁棒性，发现即使训练数据分布完全不一致，ASR 依旧维持在 90% 左右，说明鲁棒特征具有较强共享性。

图 5 为用户研究结果：即使触发器透明度逐渐增强，大多数用户仍认为图像“正常”或仅视为水印，表明攻击具有良好隐蔽性。

表 7 的消融实验验证了知识蒸馏（CD）与顺序元学习（SMAML）对攻击性能的关键性：缺一不可，联合使用才能达成最佳 ASR 表现。

5. 结论

本文首次提出了 CleanSheet，一种无需篡改训练流程，仅通过分析训练数据即可发起的模型劫持攻击方法。该方法在实际黑盒场景中表现出色，具备强泛化性、迁移性与高成功率。通过结合知识蒸馏与元学习优化策略，CleanSheet 可自动提取鲁棒特征生成通用触发器，适用于图像和语音任务，并支持物理攻击。该研究不仅拓展了攻击面，也对现有模型防御提出新挑战，未来研究可进一步探索更强鲁棒性或跨模态攻击策略。

安全学术圈招募队友-ing
有兴趣加入学术圈的请联系 secdr#qq.com

声明：本文来自安全学术圈，版权归作者所有。文章内容仅代表作者独立观点，不代表安全内参立场，转载目的在于传递更多信息。如有侵权，请联系 anquanneican@163.com。