EvoDefense：与大语言模型共同进化的黑盒防御框架

基本信息

原文标题：EvoDefense: Co-Evolving Black-Box Defense with Large Language Models

原文作者：Yu Li, Yuenan Hou, Yingmei Wei, Yanming Guo, Chaochao Lu

作者单位：国防科技大学（National University of Defense Technology）、上海人工智能实验室（Shanghai AI Laboratory）

关键词：大语言模型、黑盒防御、越狱攻击、自适应防御、ORPO训练、经验积累

原文链接：arXiv:2605.31140v1 [cs.CR]，2026年5月29日

开源代码：暂无

论文要点

论文简介

随着大语言模型（LLMs）在自然语言处理领域的广泛应用，其安全性问题日益成为学术界和工业界关注的焦点。本文提出了一种名为 EvoDefense 的自适应协同进化黑盒防御框架，专门针对黑盒场景下大语言模型面临的各类越狱攻击。所谓黑盒场景，即防御方无法访问目标模型的内部参数、梯度或架构信息，只能通过输入输出接口进行交互——这正是 ChatGPT、Gemini、Claude 等商业 API 实际运行的典型场景。

EvoDefense 的核心创新在于引入了一套持续演化的防御机制：通过一个"守卫"大语言模型（EvoGuard）生成结构化的防御提示词，并借助经验记忆模块积累历史防御知识，驱动攻防双方在迭代循环中不断相互强化。实验结果在 HarmBench、AdvBench 和 AlpacaEval 三个基准上均表现出色，在七款主流大语言模型和五种代表性攻击手法下取得了持续领先的防御效果，同时保留了模型在正常任务上的强大能力。以 AutoDAN-turbo 攻击为例，EvoDefense 将其对 Gemini-3-flash 和 LLaMA-3-8B-Instruct 的攻击成功率（ASR）分别从 29.4%、43.4% 压缩至 8.4% 和 6.2%，展示了令人信服的防御能力。

研究目的

本研究的核心目标是解决现有黑盒防御方法在面对未知攻击类型时的泛化性失效问题。当前大多数防御算法依赖于预先定义的过滤规则或固定启发式策略，一旦攻击者稍微调整策略，这些静态防御便会迅速失效。现实中，攻击者可以根据防御模型的输出持续迭代自己的攻击手法，形成一场永不停歇的"军备竞赛"。EvoDefense 希望通过动态生成机制替代静态过滤，构建一套无需重新训练即可适应未知攻击和未知目标模型的防御体系，从而在实际部署中实现持久稳健的安全保障。

研究贡献

EvoDefense 在三个层面做出了明确贡献。其一，提出了一个完全在黑盒条件下运行的防御框架，无需访问目标模型的任何内部状态，使其可以直接应用于包括专有商业模型在内的实际部署场景，大幅降低了落地门槛。其二，引入了一个统一的迭代防御循环，该循环通过与目标模型的持续交互积累反馈，使防御策略能够动态适应持续演化的越狱攻击——这一设计在本质上超越了所有依赖固定规则或预训练模式的静态方法。其三，在三个标准基准上进行了大规模实验验证，横跨七款流行大语言模型和五类代表性攻击手法，证明了 EvoDefense 在近零攻击成功率与强大模型实用性之间取得了前所未有的平衡，显著优于现有所有黑盒防御竞争对手。

研究背景与动机

大语言模型安全领域的研究可以粗略划分为白盒与黑盒两大阵营。在白盒场景中，防御者可以访问目标模型的完整架构与权重参数，从而通过梯度反传、对抗训练等深度干预手段实施防御；GCG（贪心坐标梯度攻击）和 AutoDAN 等强力攻击方法在白盒场景下能够被有效对抗。然而，现实世界中绝大多数高价值模型以黑盒 API 的形式对外提供服务：OpenAI 的 GPT 系列、Google 的 Gemini 系列、Anthropic 的 Claude 系列，这些模型的内部状态对外部完全不可见。

在黑盒防御的现有研究中，SmoothLLM 通过对输入施加随机扰动并进行集成解码来降低模型对对抗性提示的敏感性；语义平滑方法（Semantic Smooth）通过在语义等价的输入变换下强制一致性来抵抗越狱；IBProtector 则采用信息瓶颈原理过滤输入中的任务无关信号。然而这些方法都有一个致命的共同弱点——它们是静态的。防御逻辑在训练时就被固化，一旦攻击者发现规律并调整策略，防御效果便会迅速衰减。

与此同时，大语言模型自身的对齐技术（如 RLHF、DPO 等）虽然大幅提升了模型的安全性，却仍无法应对分布偏移式的对抗输入。这一局面揭示了当前对齐技术的深层局限：静态的偏好优化无法构建针对动态攻击的持久防线。EvoDefense 正是在这一背景下应运而生，旨在通过引入动态生成与持续进化的防御机制，彻底打破攻守之间的不对称格局。

方法论

EvoDefense 的整体框架由四个相互联动的核心模块构成，形成一套闭环的攻防协同进化系统。

第一个模块是安全分类器。当用户请求到达时，系统首先由一个轻量级安全分类器判断该请求是否安全。对于被判定为安全的请求，系统直接将其转发给目标大语言模型，不做任何额外处理，从而避免对正常对话造成不必要的干扰。对于被判定为不安全的请求，系统则将其交由核心防御模块——EvoGuard——进行后续处理。实现上，研究团队使用了 Qwen3-embedding-0.6B 作为安全分类器的骨干模型。

第二个模块是EvoGuard 防御提示词生成器。EvoGuard 是整个系统的核心，其本质是一个经过专门训练的守卫大语言模型，负责将恶意请求转化为结构化的防御提示词，再将防御提示词送入目标模型，引导其给出安全的回应。这一设计的精妙之处在于，EvoGuard 并不直接修改或过滤用户输入，而是在目标模型的输入端加入一层"防护层"，告诉目标模型应该如何识别并应对其中的风险元素。每个防御提示词都包含三个关键组成部分：任务摘要（Task Summary，保留请求中有价值的任务信息）、风险元素识别（Risky Elements，明确标注请求中的有害意图）以及响应指导方针（Response Guidelines，为目标模型提供明确的安全响应指令）。这种结构化的设计确保了防御提示词是自包含的——目标模型无需看到原始恶意请求即可理解如何安全地作答。

第三个模块是响应评估与反馈机制。目标模型给出响应后，系统并不立即将其返回给用户，而是先通过一个评分大语言模型（Scorer LLM）对响应的安全性进行量化评估，打分区间为 1 到 10 分（1 分表示完全顺从了有害指令，10 分表示完全拒绝了恶意意图）。若评分低于预设阈值，系统判定防御失败，随即触发下一轮迭代防御：EvoGuard 将基于本次失败案例生成改进的防御提示词，重新引导目标模型。这个过程持续迭代，直到响应达到安全标准或达到最大迭代轮数为止。这一迭代式的自我修正机制正是 EvoDefense 的核心竞争力所在——它让防御系统能够在运行时"学习"并"适应"特定攻击的策略。

第四个模块是防御记忆与经验积累。系统构建了一个持久化的防御经验库（Defense Library），以用户请求的哈希值为键，存储每次防御迭代的完整记录：原始请求、生成的防御提示词、目标模型的响应、评分，以及从失败案例中提炼的改进建议。这个经验库不仅在推理时为 EvoGuard 提供历史上下文（类似于 in-context learning），还在训练时为优化守卫模型提供高质量的偏好数据对。

在训练层面，研究团队采用了 ORPO（Monolithic Preference Optimization without Reference Model）算法对 EvoGuard 进行增量式精调。具体而言，系统从防御经验库中筛选出高质量的偏好对：对于同一恶意请求，将获得更高安全评分的防御提示词标记为"正例"，将评分较低的版本标记为"负例"，并要求两者之间的评分差距超过一个预设边际值 δ，以确保训练信号的有效性。ORPO 的训练目标驱使 EvoGuard 为正例防御提示词分配更高的生成概率，同时降低负例提示词的概率，使守卫模型在无需显式奖励模型的情况下内化安全偏好。随着防御循环的推进，新产生的偏好对被周期性地加入训练池，守卫模型得以持续更新——这正是 EvoDefense 名称中"进化"二字的深层含义。

实验评估

研究团队在三个标准基准上对 EvoDefense 进行了全面评估，并与六种主流黑盒防御方法展开系统性比较。

在实验配置方面，评估使用的两个安全基准分别是 HarmBench（包含 400 条多样化恶意请求，涵盖违法行为、有害内容等类别，其中 80 条用于训练，320 条用于测试）和 AdvBench（包含 520 条有害行为样本，取前 120 条用于测试）。此外，AlpacaEval（共 200 条提示词）用于评估防御方法对模型正常能力的影响，通过与 text-davinci-003 基线响应的胜率来衡量。攻击方法覆盖了白盒（GCG）、灰盒（AutoDAN）和黑盒（PAIR、TAP、AutoDAN-turbo）三类范式，确保了评估的全面性。目标模型包括四款开源模型（Qwen-7B-chat、LLaMA3-8B-instruct、Vicuna-7B-v1.5、Mistral-7B-v0.2）和三款闭源商业模型（Claude-4.5-Haiku、GPT-5-chat、Gemini-3-flash）。

在迁移攻击的防御性能上，EvoDefense 展现出压倒性的优势。在 HarmBench 上，针对开源模型，EvoDefense 将所有攻击方法下的 ASR 普遍压制到 10% 以下，而此前的最佳方法往往仍留有 20%-70% 的残余漏洞。以 Qwen-7B-chat 为例，原始攻击成功率在 39.7%-59.1% 之间，EvoDefense 将其全部降至 8.1% 以下。对于 Vicuna-7B 和 Mistral-7B 这两款防御基线高达 72.5% 的脆弱模型，EvoDefense 同样将 ASR 均匀压缩到 9.5% 以下，充分体现了其对不同攻击范式（GCG、PAIR、AutoDAN 等）的强大泛化能力。

更值得关注的是 EvoDefense 在安全性与实用性之间的平衡能力。IBProtector 虽然在某些设置下能取得较低的 ASR，但其代价是严重的实用性损耗——Qwen-7B-chat 上的 AlpacaEval 胜率从 79.8% 下降到 62.9%，而 EvoDefense 仍维持在 78.0%。更糟糕的是，IBProtector 在 LLaMA3-8B-instruct 模型上出现了反常行为，竟将 AutoDAN 下的 ASR 从 0.0% 提升至 34.1%，说明其鲁棒性存在严重隐患。反观 EvoDefense，在所有测试配置下均保持稳定，没有出现类似的异常。

在面对自适应攻击（Adaptive Attacks）这一更严峻的挑战时，EvoDefense 同样表现出色。自适应攻击者能够根据防御系统的输出反馈持续调整攻击策略，这对静态防御是致命的威胁。实验采用 AutoDAN-turbo（最大迭代次数设为 20）来模拟这类攻击。结果显示，EvoDefense 不仅取得了更低的最终 ASR，还迫使攻击者付出了更大的计算代价（平均防御迭代次数显著高于基线方法），这意味着 EvoDefense 将越狱的"门槛"大幅抬高，使其在实际成本上难以为继。

消融实验深入探究了防御迭代轮数对性能的影响。结果表明，从单轮到双轮防御的跨越带来了最显著的提升：在 Qwen-7B-chat 上，PAIR 攻击的 ASR 从 8.1% 降至 2.8%，GCG 从 2.5% 降至 0.9%。继续增加迭代轮数（至5轮或10轮）虽整体有益，但边际效益递减，且偶尔出现轻微的性能回退。这一发现说明 EvoDefense 的迭代防御机制具有极高的样本效率，通常在前两轮迭代内就能收敛到有效的防御策略，无需过度计算开销。

讨论与分析

EvoDefense 的成功揭示了一个深层的设计哲学：防御系统需要像攻击系统一样具备"意图理解"与"策略适应"的能力。传统静态防御的失效，本质上是因为它们停留在"模式匹配"的层面，一旦攻击者改变表述方式，防御即告失效。EvoGuard 通过生成结构化的语义摘要，将"理解用户真实意图"这一高层次任务内嵌进防御流程，使防御能力与语言理解能力同步提升。

从工程实践角度看，EvoDefense 的插件式设计（plug-and-play）具有重要的应用价值。由于系统在黑盒条件下运行，它可以直接部署在任何现有 LLM 服务的前端，无需对目标模型进行任何修改或重新训练。这一特性使其对于无法访问模型权重的企业用户（例如基于 API 构建产品的开发者）尤为友好。

当然，EvoDefense 也存在若干局限性需要正视。论文作者坦诚指出，当前研究仅聚焦于文本单模态场景，多模态越狱攻击（如基于图像的越狱）尚未被纳入防御体系。此外，实验中未包含 Claude Mythos Preview 等最新发布的超大规模模型，这些模型在安全性与能力之间的权衡呈现出与当前测试集不同的特征。与此同时，防御系统引入了额外的推理开销（包括安全分类器、EvoGuard 和评分模型的调用），在高并发实时应用场景下的延迟优化仍有待探索。

在增量训练方面的消融结果给出了另一个重要启示：EvoDefense 的安全分类器在未经增量训练的情况下即已超越 Qwen3-Guard，而在引入针对新攻击类型（TAP）的增量训练后，其误分类率进一步大幅下降。这表明持续学习机制不仅适用于防御提示词的生成，也有效改善了恶意请求的识别精度，两者相辅相成，共同构成了 EvoDefense 的纵深防御体系。

论文结论

EvoDefense 代表了大语言模型黑盒防御领域的一次范式转变——从被动的静态过滤走向主动的动态进化。论文通过设计攻防协同的迭代循环、经验驱动的防御优化和持续增量的守卫模型训练，在保持黑盒部署便捷性的前提下，实现了迄今最强的防御效果。

在 HarmBench、AdvBench 和 AlpacaEval 三个基准上覆盖七款主流模型的大规模实验充分证明，EvoDefense 能够在近乎清零的攻击成功率与媲美原始模型的正常任务能力之间实现真正意义上的双赢。尤其是在面对自适应攻击这一最具威胁性的场景时，EvoDefense 展示出其他方法无法比拟的韧性。

未来，研究团队计划将 EvoDefense 的防御能力延伸至多模态场景，并在更多新型 LLM（包括近期发布的超强模型）上验证其有效性。此外，如何在保持防御效果的同时进一步降低计算开销，也是值得深入探索的工程方向。在 AI 安全这场没有终点的博弈中，EvoDefense 提供的不只是一种防御方案，更是一种与时俱进、持续进化的防御哲学。

声明：本文来自安全极客，版权归作者所有。文章内容仅代表作者独立观点，不代表安全内参立场，转载目的在于传递更多信息。如有侵权，请联系 anquanneican@163.com。

EvoDefense：与大语言模型共同进化的黑盒防御框架

智能体通信协议的数据安全风险分析

Agent社工攻击：数字信任机制的崩塌与重建

从EDR到ADR：Agent安全正在进入检测响应时代