原文标题:ForgeDAN: An Evolutionary Framework for Jailbreaking Aligned Large Language Models

原文作者:Siyang Cheng;Gaotian Liu;Rui Mei;Yilin Wang;Kejia Zhang;Kaishuo Wei;Yuqi Yu;Weiping Wen;Xiaojie Wu;Junhua Liu

发表会议:The 24th IEEE International Conference on Trust, Security and Privacy in Computing and Communications (TrustCom 2025)

原文链接:https://arxiv.org/pdf/2511.13548

主题类型:大模型安全评测(越狱攻击)

笔记作者:程思扬@iFLYTEK

主编:黄诚@安全学术圈

1、研究背景与动机

大型语言模型(LLM)在众多行业展现出强大的生成与理解能力,但也引发了安全与可控性问题。尽管通过有监督微调(SFT)和人类反馈强化学习(RLHF)等技术能够在一定程度上约束模型行为,但这些对齐机制并不能彻底消除风险。在特定提示词(Prompt)的诱导下,LLM仍可能绕过既有的安全策略,输出包含暴力、色情、虚假信息等其他敏感内容的违规回答,体现出模型在真实交互场景中的脆弱性。

现有越狱(Jailbreak)攻击大体分为人工提示与自动化生成两类。人工提示如DAN角色扮演攻击依赖手动构造,往往能在短期内取得显著效果,却难以规模化,且随着模型更新容易失效。自动化方法试图系统化生成对抗提示,但早期白盒方法(如GCG)依赖梯度,生成的“乱码式”扰动缺乏可读性且容易被过滤;后续的黑盒进化方法(如AutoDAN-HGA)在跨模型泛化性上有所提升,但仍存在变异策略单一、语义评估不准确、越狱判定依赖关键词等问题,导致部分成功样例不稳定或误判率较高。

因此,系统化研究LLM越狱问题具有重要意义:既能帮助发现模型在对齐机制下残存的攻击面,辅助改进安全策略;又能弥补已有方法在效果、可扩展性与泛化性方面的不足,构建更稳健的安全评估框架。ForgeDAN正是在此背景下提出,以解决当前自动化越狱研究中的关键痛点。

2、方法论

本文方法ForgeDAN所基于的越狱攻击设定:攻击者仅能以黑盒方式调用目标模型,通过不断提交提示词观察模型输出,而无从得知模型内部结构或梯度信息。攻击者的目标是构造一个自然可读、语义不偏离原始有害意图的前缀提示,使模型在与具体恶意请求组合后能够绕过对齐机制并输出违规内容。由于越狱问题本质上是一个具有语义约束的离散搜索优化问题,ForgeDAN 采用进化算法范式,通过“变异—评估—选择”的循环,逐步逼近最优对抗提示。

ForgeDAN提出了一个语义约束的进化框架来自动生成对抗提示。该框架围绕三个核心模块设计,分别对应于提升以往工作的三大不足之处:(1)多策略扰动机制提高变异多样性,(2)语义相似度适应度评估提供深层语义指导,(3)双维度越狱判定带来稳健的攻击成功判定。下图概括了ForgeDAN的整体流程,包括输入、核心引擎和成功提示输出三个阶段。

首先,攻击者给出一个初始的恶意请求模板t和具体违规指令goal。ForgeDAN对t进行多样化扰动产生初始种群候选提示词。然后,在每一轮迭代中,对候选集合计算语义适应度评分(Fitness Score),选择最优个体检查其越狱是否成功;若成功则输出该对抗提示,否则基于高适应度个体产生“精英(Elite)”候选提示,对其余候选提示进行变异产生新一代变体。这个进化循环持续进行直到成功找到越狱提示或达到最大迭代次数。通过这种迭代搜索,ForgeDAN能够逐步逼近最优解决方案。下文详细介绍ForgeDAN的核心模块设计。

2.1 多策略扰动机制(Multi-Strategic Mutation)

为了扩大搜索空间并避免陷入单一表达形式,ForgeDAN设计了字符级—单词级—语句级多粒度的变异体系。变异策略以模块化方式组织,便于扩展与组合。所有变异遵循两条基本原则: (1) 语义保持:需维持原有恶意意图; (2) 表达多样性:通过不同层次的变形增强提示隐蔽性。

为实现上述目标,ForgeDAN的变异机制采用插件式架构。每种变异操作封装为独立模块,可根据攻击场景灵活增删。这意味着研究者可以轻松加入新的扰动策略(如代码混淆符号、本地化俚语替换、跨模态混合等),保持框架的长期适应性和扩展性。当前实现中,ForgeDAN预置了11种变异策略,分属三种语言层级,示例如下(表1):

字符级变异通过替换、插入或交换字符制造轻量扰动,可躲避简单规则过滤;词级变异使用同义词替换、词形变化或释义重写等方式保证语义等价;句级变异则通过改写句式或调整结构提升表达多样性。变异后,系统利用语义相似度约束过滤偏离任务的提示。多策略组合显著扩大了可搜索空间,是ForgeDAN提升成功率和提示自然度的重要基础。

2.2 语义相似度评估(Semantic Fitness Measurement)

在进化算法中,适应度函数(Fitness Function)决定了哪些候选提示能够保留和繁衍。ForgeDAN引入了语义感知的适应度度量,以更有效地评估变异提示的质量和相关性。以往的方法多采用浅层的表面相似度,例如基于词汇重叠的Jaccard指数。然而这存在明显局限:(i) 如果候选提示使用了不同词语但表达了相同含义,词汇匹配将无法捕捉这种语义等价,从而错误地低估其价值;(ii) 此类度量缺乏可解释性,无法指示为何候选值得保留。另一些工作如AutoDAN-HGA尝试使用生成输出与目标分布的交叉熵作为信号,但这种统计指标同样难以解释,无法提供语义层面的直观判断。

鉴于此,ForgeDAN采用了预训练文本编码器E来计算嵌入表示,定义适应度函数为候选提示生成的模型输出与参考有害输出之间的语义相似度:

这里 是模型在提示t下针对恶意请求goal生成的输出, 表示预先给定的有害参考回答,用于代表攻击者理想中希望模型输出的违规内容。 为将文本映射到语义向量空间的编码器,例如RoBERTa或Sentence-BERT等, 表示计算两个向量的语义相似度如余弦相似度。通过这种方式,ForgeDAN能够量化模型输出与期望有害内容在语义上的贴合程度,并以此作为候选提示的适应度分数。

相比简单的字面相似或概率分数,该语义适应度具有两大优势:首先,它更鲁棒,能正确识别用不同表述但含义相同的输出,避免将优秀候选误淘汰;其次,它提供了可解释的依据——我们可以理解为在向量空间中,保留了那些输出语义“接近”目标危害内容的提示。这使进化搜索过程更加透明:研究者可以直接看到某提示为何被保留——因为它导出的输出很“像”我们想要的违规回答。这种直观的语义准则,引导进化朝着既保留恶意意图又提高攻击成功率的方向收敛。

2.3 双维度越狱判定机制(Dual-Dimensional Jailbreak Judgment)

大多数先前工作在判定对抗提示词是否成功绕过时,采用的是单一维度的标准,例如简单的关键字检测或单一分类器输出。这种做法容易将拒答与安全回答混淆,或对部分违规的回答误判。为提高判定的准确性,ForgeDAN引入了“双维度”的验证机制,从行为和内容两个独立维度来判断模型响应。具体而言,框架训练了两个基于LLM微调的分类器,只有当模型对提示既遵从(未拒绝)且输出内容有害时,才认为此次提示实现了“成功越狱”。表2给出了这一判定矩阵的四种情形:

如上表所示,当模型拒绝回答且内容安全时,只是正常的安全拒答;若模型拒绝回答但附带了些许有害信息(如复述了用户的不当请求再拒绝),则视为“带有有害迹象的拒答”,仍属于被拦截的情况。当模型遵从要求但输出内容实际上是无害的泛泛回答(避开了真正敏感信息),这属于“顺从但安全”的响应,并非真实的越狱成功。只有最后一种情形——模型既没有拒绝,且生成了明确违规的有害内容——才被判定为成功越狱。

3、实验设计与评估

本文作者通过一系列对比实验和消融分析,验证了ForgeDAN的有效性和实用性。实验涵盖越狱成功率、跨样本泛化、真实场景和模块贡献等多个方面,对比了多种基线方法。

3.1 实验设置

本研究选取了四种具有代表性的越狱攻击方法作为对比基线,包括三种自动化方法和一种人工方法:

GCG(Greedy Coordinate Gradient):白盒优化攻击,自动生成对抗性后缀字符串。该方法基于梯度信息调整每个位置的token,但生成的提示往往不可读(如随机符号串)。

AutoDAN-HGA:黑盒的分层遗传算法,自动进化DAN风格前缀。相较GCG能生成较自然的提示,但存在前述多样性和评估不足等缺点。

PAIR(Prompt Automatic Iterative Refinement):黑盒的语义耦合迭代优化方法。通过一个“攻击者LLM”与目标模型对话交互,不断细化提示,通常在有限查询内即可生成有效攻击。

DAN提示词:人工精心设计的DAN系列提示,本实验从文献中选取安全社区公开的经典DAN前缀作为手工基线。

ForgeDAN则作为新的待评估方法。表3总结了这些方法的主要属性:

此外,文章设计了四类实验任务来全面评估ForgeDAN(对应研究问题RQ1–RQ4):

RQ1:在初始恶意payload下,各方法能否成功使模型越狱?以攻击成功率(Attack Success Rate, ASR)为主要指标,比对ForgeDAN与基线在相同Payload上的成功率高低(越狱有效性)

RQ2:评估生成的对抗提示在不同恶意请求上的适用性。即将针对某一Payload优化的提示,直接用于另一不同的Payload,观察还能否触发目标模型违规响应。这模拟实际中攻击者不可能针对每个请求都单独优化的情况,要求方法具有跨样本的迁移性(泛化能力)

RQ3:在人工构造的数据集之外,测试各方法对真实世界有害请求的攻击效果。实验采用某匿名企业提供的AI Chat日志中提取的137个有害请求作为Real-World数据集,评估方法在真实模型日志数据上的实战表现(真实场景适用性)

RQ4:通过移除或替换ForgeDAN的各个模块,观察性能变化,以量化每个核心组件(变异、适应度、判定)的相对贡献(消融研究)

3.2 数据集与模型:

本文使用了两个数据集:

AdvBench:开源基准数据集,涵盖了520个不同类别的恶意请求(如网络犯罪、错误信息、威胁言论、歧视性内容等7类)。该数据集旨在覆盖广泛的有害意图类型,用于评估方法在基准场景下的有效性和泛化性。

Real-World Prompts:来自真实AI系统的137个有害用户提问,类别分布见表4。这部分数据更贴近实战,用于验证方法在真实应用中的有效性。

实验在四个目标模型上进行,包括三款开源LLM和一款定制领域模型:Qwen2.5-7B、Gemma-2-9B、DeepSeek-V3(通过API访问)、以及TranSpec-13B模型(13B参数,经典Transformer架构,专门语料训练)。选择这些模型覆盖了通用和垂直领域、大中规模的多种情形,以测试方法的普适性。评价指标主要采用攻击成功率(ASR),即在一定轮次或查询次数内,模型被成功越狱的比例。为公平比较,实验确保各方法在相同的Payload下评估,即对同一组有害指令,各方法各自生成对抗提示,与Payload拼接后输入模型测试成功率。

3.3 实验结果:

RQ1: 越狱成功率

ForgeDAN在四个目标模型上均取得了最高的攻击成功率,显著优于所有基线方法。表5给出了各方法在不同模型上的ASR:

可以看到,ForgeDAN在所有场景下均排名第一,表现出最强的攻击能力和稳健性。在Gemma-2-9B和Qwen2.5-7B两个模型上,ForgeDAN的成功率分别高达98.3%和87.5%,远超次佳方法(Gemma上DAN的23.65%,Qwen上PAIR的40.58%)。在DeepSeek-V3和TranSpec-13B上,ForgeDAN同样领先至少10个百分点以上(分别比PAIR高出约23%和8%)。相较之下,白盒方法GCG几乎毫无成效(ASR低于4%),说明在黑盒环境下纯粹梯度拼接的字符串难以奏效。AutoDAN-HGA和PAIR虽然在个别模型上达到中等成功率(如TranSpec上接近45%),但稳定性较差:不同模型间波动较大,缺乏全面适用性。

RQ2: 跨样本泛化

在这项实验中,作者关注对抗提示在未见过的恶意请求上的迁移效果。由于PAIR方法要求与原始Payload强耦合生成对抗提示词,无法直接迁移,因此泛化实验仅比较ForgeDAN、GCG、AutoDAN-HGA和人工DAN。结果显示,ForgeDAN在各模型上的跨样本成功率同样是最高的(范围约54.23%–98.46%),远超其他基线。表6列出了不同方法在新payload下的ASR:

ForgeDAN在所有模型上均保持领先,其在跨样本攻击上的稳健性进一步确立了其作为通用越狱测试工具的价值。

RQ3: 真实场景适用性

将各方法应用于真实世界有害请求集,依然是ForgeDAN全面领先。表7展示了在真实数据上的攻击成功率:

ForgeDAN保持约56%–58%的成功率,显著高于基线,这些结果证实,ForgeDAN进化生成的越狱提示词在真实部署情境中具有实际效果,可用于发现当前LLM在野外环境下的安全隐患。它成功回答了RQ3,表明ForgeDAN可以作为日常红队测试工具,帮助开发者在模型上线前识别潜在风险。

RQ4: 模块消融分析

作者通过分别削弱ForgeDAN的三个核心模块,评估了各组件对整体性能的贡献,如下图所示:

综合消融实验可以看出:ForgeDAN的三大模块各有贡献,其中语义适应度和双维判定对性能影响极其显著,缺一不可;多策略变异虽不是成功的充分条件,但仍是提升整体攻击质量和鲁棒性的重要因素。毕竟,尽管只用同义词也能产生部分攻击,但缺少多样策略会降低提示的隐蔽性和适用面。而完整的ForgeDAN三个模块协同作用,使得ForgeDAN能够显著超越SOTA方法。

4、创新与局限讨论

ForgeDAN的核心贡献在于提出了一套兼具有效性、泛化性与稳定性的黑盒越狱生成框架。其主要创新包括:多粒度变异策略、语义驱动的适应度评估、双维度越狱判定。三者协同,使ForgeDAN能在字符、单词和句子不同层级探索更大攻击空间;通过语义相似度确保进化方向朝向真实有害目标不偏移;并用行为 + 内容双重识别有效区分真正越狱成功而非“假阳性”。实验显示,这三类模块缺一不可,尤其语义适应度与双判定机制对攻击成功率影响最大,是突破AutoDAN类方法的关键。

在实际的大模型安全防护的背景下,ForgeDAN也揭示了若干重要启示。首先,对齐训练需系统吸收多样化越狱样本——包括ForgeDAN生成的提示,以提升模型对新型提示结构的免疫能力。其次,推理阶段需要更鲁棒的安全围栏,例如引入类似ForgeDAN判定器的双分类结构,以同时检测拒答行为与内容危害性,而非依赖简单关键字或模板化拒绝。

同时,ForgeDAN也存在局限:其攻击能力依赖持续查询,可能受到API速率等限制;生成样本若被用于对抗训练,攻击空间会被逐步“固化”;当前方法主要针对单语种文本模态,对小语种、多模态场景尚未覆盖。

总的来看,ForgeDAN推动了越狱提示生成的自动化与智能化,也从研究视角为未来更稳健的模型安全机制建设提供了参考方向。

5、作者

Siyang Cheng,科大讯飞信息安全实验室工程师

Gaotian Liu,科大讯飞信息安全实验室工程师

Rui Mei,科大讯飞信息安全实验室首席研究员, 北京大学软件安全研究组访问学者 (通信作者)

Yilin Wang,电子科技大学硕士研究生

Kejia Zhang,西北大学硕士研究生

Kaishuo Wei,新南威尔士大学硕士研究生

Yuqi Yu,国家互联网应急中心(CNCERT/CC)高级工程师

Weiping Wen,北京大学教授

Xiaojie Wu,科大讯飞安全合规部主任

Junhua Liu,科大讯飞研究院院长, 长三角安全人工智能安徽省实验室(筹)主任

安全学术圈招募队友-ing

有兴趣加入学术圈的请联系 secdr#qq.com

声明:本文来自安全学术圈,版权归作者所有。文章内容仅代表作者独立观点,不代表安全内参立场,转载目的在于传递更多信息。如有侵权,请联系 anquanneican@163.com。