BAP：通过双模态对抗提示越狱视觉语言模型

原文标题：Jailbreak Vision Language Models via Bi-Modal Adversarial Prompt
原文作者：Zonghao Ying, Aishan Liu, Tianyuan Zhang, Zhengmin Yu, Siyuan Liang, Xianglong Liu, Dacheng Tao
原文链接：https://ieeexplore.ieee.org/document/11059299
发表期刊：IEEE Transactions on Information Forensics and Security (TIFS), 2025

1、背景介绍

大型视觉语言模型（LVLMs）如 LLaVA、GPT-4o 等，通过深度融合视觉和文本信息，在图像描述、视觉问答等任务上展现了卓越性能。然而，这些模型同样面临着严重的安全风险，即可能被“越狱”从而生成有害或非伦理的内容。

现有的越狱攻击研究大多集中在单一模态，特别是针对视觉模态的攻击（如将攻击意图隐藏在图片中的 Typographic attacks）。然而，随着 LVLM 安全对齐技术的进步，模型在生成回答时会同时参考视觉与文本特征。仅针对视觉模态的扰动往往难以奏效，因为对齐后的 LVLM 会将“文本中的用户意图”视为主导信号，若文本提示正常，模型极易拒绝回答。为了突破这一限制，本文提出了一种双模态对抗提示攻击（Bi-Modal Adversarial Prompt Attack，简称 BAP），主张“双管齐下”：同时优化视觉和文本提示，实现高效越狱。

2、Motivation

下图展示了传统攻击与 BAP 攻击的区别。传统的攻击方式（图 a）即使使用了对抗图像，由于文本提示（Query）直接暴露了有害意图，很容易被模型的防御机制识别并拒绝（例如模型注意到有害文本后，选择性忽略图片或仅描述图片中的无害部分）。

而本文提出的 BAP 方法（图 b）通过协同优化：一方面在图片中植入通用扰动，诱导模型倾向于给出肯定回答；另一方面优化文本提示，伪装有害意图。这种“图片负责诱导，文本负责伪装”的策略成功欺骗了模型，使其输出了有害信息。

3、本文方法

BAP 框架的核心思想是双模态协同优化。它包含两个关键步骤，分别针对视觉和文本模态进行处理，如图 2 所示。

3.1 模块一：查询无关的图像扰动（Query-Agnostic Image Perturbing）

这一步的目标是让模型“失去拒答能力”，制作一张通用的“万能钥匙”图片。

核心原理：作者利用一个极少量的、与具体查询无关的语料库（Corpus Y），其中包含肯定前缀（如“Sure”, “Okay”）和否定抑制词。通过梯度优化，生成一张对抗图片，使其能诱导模型最大化输出这些肯定词的概率。
优化公式：
该公式的含义是：在保证图片视觉变化极小（约束，人眼不可察觉）的前提下，让模型无论面对什么文本输入（），都倾向于“点头答应”。
优势：这种扰动不依赖于具体的有害问题（Query-Agnostic），因此训练一次即可重复使用，大幅降低了攻击成本。

3.2 模块二：意图特定的文本优化（Intent-Specific Textual Optimization）

在模型已经被图片“诱导顺从”的基础上，针对具体的有害意图（如制造炸弹），进一步构建对抗性文本提示。

LLM 辅助攻击：利用一个大语言模型（如 ChatGPT）充当“军师” 。
思维链（CoT）策略：采用逐步推理过程（Let"s think step by step），分析上一次越狱失败的原因（是意图太明显？还是触发了关键词？），并据此自适应地优化文本提示。
迭代进化公式：
通过反馈-迭代的方式，不断精炼文本话术，使其既能传达有害意图，又能绕过模型的语义审查。

3.3 双模态协同

最终，攻击者将优化后的通用对抗图片和定制化文本提示组合输入给 LVLM。

图片让模型放松警惕，倾向于顺从；
文本巧妙伪装，绕过语义过滤；两者结合，成功触发模型输出有害内容。

4、评估与实验分析

4.1 实验设置详解

模型与数据集：

开源模型：LLaVA-V1.5-7B, MiniGPT-4 (Vicuna 7B), InstructBLIP。
商业黑盒模型：GPT-4o, Gemini Pro, ChatGLM, Qwen, ERNIE Bot。
数据集：整合了 SafetyBench (13类高风险场景，如非法活动、仇恨言论) 和 AdvBench(521条有害指令)。

评估指标：

ASR (攻击成功率)：核心指标。
评估方式：采用自动化评估函数结合人工双盲校验（Human Eval），确保结果可靠性。

基线对比：

结构攻击：Liu et al. (图文拼接), FigStep (排版图像OCR攻击)。
优化攻击：Qi et al. (视觉对抗优化)。
设置：分为 Query-Dependent (QD，依赖特定问题) 和 Query-Agnostic (QA，通用/查询无关)两种模式进行公平对比。

4.2 白盒攻击性能 (White-Box Performance)

全面领先的攻击成功率：在 MiniGPT-4 上的实验结果（见 Tab. I）显示，BAP 展现了统治级的表现：

平均 ASR：BAP 达到 **68.17%**，显著高于 FigStep (60.63%)、Liu et al. (47.76%) 和 Qi et al. (44.01%)。
高难场景突破：在模型防御较强的“非法活动 (IA)”场景中，BAP 将 ASR 从无攻击的 2.13% 提升至 **59.04%**；在“仇恨言论 (HS)”场景中达到 **45.62%**。
弱防御场景：在“政治游说 (PL)”和“金融建议 (FA)”等场景，ASR 更是高达 90% 以上。

强大的通用性验证：为了验证攻击的通用性，作者进行了 Query-Agnostic (QA)测试（即用针对 A 场景训练的图片去攻击 B 场景）：

基线失效：Liu et al. 和 Qi et al. 在 QA 设置下，ASR 暴跌至 30% 左右，甚至低于不攻击的基准线（No Attack）。这说明它们的对抗图片包含过多特定语义，换个问题反而干扰攻击。

4.3 黑盒与迁移攻击 (Black-Box & Transferability)

开源模型间的迁移：

在 LLaVA、MiniGPT-4 和 InstructBLIP 之间互换对抗样本进行攻击（Fig. 4a）。
结果显示 BAP 具有稳定的迁移性，但受模型架构影响（例如 LLaVA 与其他两者架构差异较大，迁移效果略有下降）。

商业闭源模型实测：

针对 GPT-4o, Gemini 等 5 款顶级商用模型进行了攻击（Fig. 4b）。
尽管商用模型部署了额外的预处理/后处理过滤器（如检测到敏感词直接拒答），BAP 依然取得了一定的越狱效果。
局限：相比开源模型，商用模型的 ASR 平均下降了 14.79%，说明系统级防御（System-level Guardrails）比模型本身的对齐更难攻破。

4.4 消融研究与原理验证 (Ablation Studies)

视觉模态的消融：

去掉视觉对抗提示：ASR 显著下降。
图片语义影响：对比了“白图”、“噪声图”、“语义相关图（如炸弹图）”和“BAP 对抗图”。结果发现，即使是放一张炸弹图片（ASR 50%）也能辅助攻击，但 BAP 优化后的对抗图效果最好。
扰动幅度 ：是性价比最高的选择，继续增大扰动对 ASR 提升有限，但会破坏图片质量。

语料库的选择：

作者对比了三种训练视觉扰动的语料库：BAP 原始语料（简单肯定句）vs DeepInception（复杂越狱话术）vs ICA（少样本攻击）。
结论：简单的反而最好。BAP 原始语料训练出的图片攻击效果最强（Fig. 7）。复杂的语料库（如 DeepInception）包含太多逻辑语义，图片难以承载，导致优化效果大打折扣。

文本优化的关键：

去掉文本对抗：ASR 骤降 49.50%，证明单纯靠图是不够的。
CoT 的作用：对比直接提问、同义词改写、无 CoT 模板，发现 CoT（思维链） 是提升文本攻击稳定性的关键（Fig. 8b）。
迭代次数：大部分文本优化在 N=1（第一轮迭代）时就取得了最大幅度的 ASR 提升，后续迭代主要是微调。

4.5 计算成本 (Computational Cost)

训练阶段（一次性）：在单张 A800 GPU 上，优化通用视觉扰动（3000步）耗时约 1小时（3586.6秒）。
攻击阶段（推理）：一旦图片训练好，每次发起新的攻击仅需进行文本优化，平均耗时 <10秒< strong="">。
评价：这种“高投入训练，低成本复用”的特性，使得 BAP 在实际场景中具有极高的威胁性和可扩展性。

5、总结

这篇论文揭示了当前 LVLM 安全防御的一个重大盲区：双模态协同攻击。BAP 通过通用的视觉扰动“撬开大门”，再配合进化的文本话术“登堂入室”，实现了高效、通用的越狱。这也为未来的防御指明了方向：仅仅防御单一模态是不够的，我们需要更智能的跨模态一致性检测或意图清洗机制。

安全学术圈招募队友-ing
有兴趣加入学术圈的请联系 secdr#qq.com

声明：本文来自安全学术圈，版权归作者所有。文章内容仅代表作者独立观点，不代表安全内参立场，转载目的在于传递更多信息。如有侵权，请联系 anquanneican@163.com。

BAP：通过双模态对抗提示越狱视觉语言模型

1、背景介绍

2、Motivation

3、本文方法

3.1 模块一：查询无关的图像扰动（Query-Agnostic Image Perturbing）

3.2 模块二：意图特定的文本优化（Intent-Specific Textual Optimization）

3.3 双模态协同

4、评估与实验分析

4.1 实验设置详解

4.2 白盒攻击性能 (White-Box Performance)

4.3 黑盒与迁移攻击 (Black-Box & Transferability)

4.4 消融研究与原理验证 (Ablation Studies)

4.5 计算成本 (Computational Cost)

5、总结

贤者之石：大型语言模型的插件木马攻击

恶意大语言模型对话式AI诱使用户泄露个人信息

指纹浏览器行业安全风险深度分析

BAP：通过双模态对抗提示越狱视觉语言模型

1、背景介绍

2、Motivation

3、本文方法

3.1 模块一：查询无关的图像扰动（Query-Agnostic Image Perturbing）

3.2 模块二：意图特定的文本优化（Intent-Specific Textual Optimization）

3.3 双模态协同

4、评估与实验分析

4.1 实验设置详解

4.2 白盒攻击性能 (White-Box Performance)

4.3 黑盒与迁移攻击 (Black-Box & Transferability)

4.4 消融研究与原理验证 (Ablation Studies)

4.5 计算成本 (Computational Cost)

5、 总结

贤者之石：大型语言模型的插件木马攻击

恶意大语言模型对话式AI诱使用户泄露个人信息

指纹浏览器行业安全风险深度分析

5、总结