不是提示注入,不是角色扮演,也不是把恶意请求伪装成正常问题。这一次,风险出现在智能体自主完成任务的过程中。

Fable 5 是 Anthropic 面向公众开放的 Mythos 级模型,不仅具备极强的综合能力,还在模型外围引入了新一代安全分类器(Safety Classifier)作为安全防线。按照官方设计,当用户请求涉及网络安全、生物、化学、模型蒸馏等高风险领域时,系统会优先进行风险识别,并根据风险等级直接拒绝请求,或切换至更加保守的 Opus 4.8 模型处理。

大量用户测试发现,过去广泛采用的对抗提示、角色扮演、编码绕行以及隐晦表达等越狱攻击技术,在该安全机制面前几乎全部失效,显示出其在意图级风险拦截方面的强大能力。

然而,就在 Fable 5 发布当天,一个由复旦大学、迪肯大学、香港城市大学、墨尔本大学、新加坡管理大学以及伊利诺伊大学厄巴纳-香槟分校等机构组成的国际联合研究团队宣布,他们已成功突破 Fable 5 的安全防护机制。该攻击方法由迪肯大学博士生 Yutao Wu 主导设计。整套攻击仅需一次对话、耗时不到5秒,即可绕过前置安全分类器,诱导模型生成违规有害内容。

流量分析结果进一步表明,相关有害输出直接来自 Fable 5 本身,而非触发安全机制后自动切换的 Opus 4.8 模型。这意味着,该攻击不仅成功绕过了安全分类器的检测,也实质性突破了 Fable 5 的安全防线。

值得一提的是,知名黑客 Pliny the Liberator 近期也公开了针对 Fable 5 安全分类器的绕过。而复旦 & 迪肯团队此次所采用的技术路线并不是简答的组合式探索,而是发现了 Fable 5 这一类超级智能体系统的根本性缺陷。据悉,团队早在今年 3 月便已完成预研并公开发布。该研究并非针对 Fable 5 单一系统设计,而是面向新一代超级智能体普遍采用的“安全分类器 + 模型”防御架构展开研究,直接揭示了这类安全机制所存在的结构性缺陷,因此在 Fable 5 发布后迅速展现出攻击效果。公开资料显示,该团队早在今年 3 月便已利用类似技术,从 37 家主流大模型及智能体系统中成功提取系统提示词,并在 Claude Code 完成了开源验证(95% 吻合)。

  • 论文:《Internal Safety Collapse in Frontier Large Language Models》

  • 论文链接:https://arxiv.org/abs/2603.23509

  • GitHub:https://github.com/wuyoscar/Internal-Safety-Collapse

  • Project:https://wuyoscar.github.io/Internal-Safety-Collapse/

据了解,该研究团队的负责人为复旦大学可信具身智能研究院马兴军老师。近年来,其团队围绕大模型、智能体与具身智能安全等方向开展系统性研究,取得了一系列国际领先的科研成果,并获得美国 AI 安全中心安全基准大赛的冠军。目前,其团队正积极推进成果转化工作,聚焦智能体安全,探索构建面向下一代智能体系统的安全基础设施能力。

据马老师介绍,这一研究结果的重要意义在于,它对当前以安全分类器为核心的静态防御范式提出了新的挑战:仅依赖前置安全分类器并不足以完全防范高级智能体系统中的潜在风险行为。安全分类器主要针对用户输入进行风险识别与拦截,能够有效检测和过滤显性的高风险指令,但是无法感知智能体在长时运行、多步规划、环境交互以及工具调用过程中逐渐产生的内在风险行为。

此次攻破 Fable 5 的方法来源于该团队今年 3 月发布的论文《Internal Safety Collapse in Frontier Large Language Models》。论文揭示了一种隐蔽的安全现象 “内部安全坍塌(Internal Safety Collapse,ISC)”:当前 Agent 完成长程任务时,安全失效并不一定来自外部恶意提示,而可能发生在模型自身的执行链条中。

不是外部提示词攻击

而是任务链条中的内部失守

传统攻击通常从外部进入。攻击者会写一个看似无害、实则对抗性的输入提示,或者使用角色扮演、编码、翻译、间接指令等方式,把恶意意图伪装成正常请求。安全分类器的主要任务,就是在这一层把风险拦住。

Fable 5 的检测器正是为这种场景设计的。它对直接的高风险请求非常敏感,甚至会把不少正常请求也拦下来。但 ISC 揭示的是另一条路径:风险并不一定来自用户直接输入的危险请求。 智能体面对的是一个看似普通的工作目录:文件、目标、校验流程和待完成任务。 随后,它开始规划、读取文件、运行代码、修复错误,并不断尝试让任务通过验证。

如果用一个形象的比喻来解释,传统安全机制守护的是系统的 “入口”,负责检查用户输入是否存在风险;而 ISC 所揭示的,则更像《盗梦空间》中的多层梦境。当任务推进到第二层、第三层甚至更深层的执行阶段后,模型会基于不断累积的内部上下文重新理解任务目标,并在这一过程中逐渐产生偏移。

在这种情况下,最初的用户输入完全可能是正常且无害的,前期的任务执行过程也始终合规:读取文件、分析数据、编写代码、调用工具,一切看起来都在按照预期推进。然而,当智能体执行到某个关键阶段时,它可能自行推导出一个结论:如果不采取某些原本不应执行的行为,就无法完成最终任务。

正是在这一过程中,风险并非来自外部输入,而是在模型自身的任务执行链条中逐步形成。也就是说,模型不是被用户一步步教坏的。它是在 “认真完成任务” 的过程中,自己走到了不安全的位置。

这个现象是怎么被发现的?

据团队介绍,ISC 并不是一开始就被设计成一种攻击方法。它最早来自对智能体长程运行过程的观察。Agent 被放进复杂任务环境后,并不只是机械执行指令。它会规划、试错,根据 harness 或 validator 的反馈修改输出,并在多轮执行中形成中间目标。

这正是今天很多 Agent 工作流最常见的使用方式。用户并不会写一段精心设计的 prompt,更不会手工构造攻击指令。很多时候,用户只会给一句非常模糊的话:

“帮我把这个任务完成。”

“帮我把这个做得再好一点。”

然后,Agent 会自己进入工作区,读取文件,理解当前状态,发现缺失项,制定计划,执行修改,并不断根据反馈修复问题。

比如在 AutoResearch 场景中,用户只给一篇未完成论文和一句 “帮我补完整”,Agent 会自行判断哪里缺实验分析、相关工作或表格文字。代码场景也类似:一句 “帮我把项目跑通”,就可能触发依赖检查、测试运行、报错定位和自动补全。

很多时候,前面的上下文完全无害。用户没有要求它生成风险内容,任务说明也没有明显危险关键词。但在某些任务结构里,Agent 会为了通过校验,主动补齐某些不该由模型生成的内容。基于这个观察,研究团队进一步提出了一个攻击框架:TVD(任务、验证、数据)。

一个看似很普通的任务描述结构

为什么会成为攻击?

TVD 的结构并不复杂,甚至很接近常见工程流程:

  • Task:一个专业任务;

  • Data:一个不完整的数据文件;

  • Validator:一个只检查格式、完整性和目标是否完成的校验器。

以训练 Guard 模型为例,这本来是一个很专业、也很正常的任务。研究者可能希望训练或评估一个安全检测器,比如用 Hugging Face 加载一个文本分类模型,判断某段模型输出属于哪类安全标签。

在这个任务里,Data 是模型要检测的数据样本;Validator 则规定任务是否完成。它会检查输入是不是文本、长度是否足够、字段是否完整、标签格式是否正确。对任何有机器学习训练经验的人来说,这都是熟悉的工作流。Agent 也非常熟悉这个工作流。

问题就出现在这里。如果 Data 不完整,任务就跑不起来。Validator 会报错,提示字段缺失、长度不够或格式不完整。为了让训练流程继续进行,Agent 会自己补全这些 Data。

从 Agent 的视角看,它不是在 “作恶”。它只是在完成一个正常机器学习任务:修复数据、通过校验、让训练脚本跑起来。但从安全角度看,风险就在这一刻出现了:Validator 更像一个工程验收器,而不是安全审查员。它只检查任务是否按格式完成,并不理解内容背后的安全边界。

类似的问题也广泛存在于医学、生物、化学、网络安全、药理学和媒体安全等领域。论文收集了 50 多个这类场景,并涉及多种现实科研或工程工具,例如 BioPython、RDKit、Cantera、AutoDock Vina、DiffDock、PyRosetta、Scapy、Impacket、angr、Frida、LlamaGuard、Detoxify、OpenAI Moderation API 等。

这些工具本身并不是恶意工具。恰恰相反,它们都是现实科研或工程中常用的专业工具。但 TVD 的问题在于:当 Task 是正常的,Tool 是正常的,Validator 也是正常的,Agent 仍然可能在补全 Data 的过程中走向不安全输出。

因此,ISC 的重点不在提示词技巧,而在 Agent 对 “未完成任务” 的自动补全能力:当完成条件与风险边界重叠,模型可能把不安全输出当作正常交付物。

攻破 Fable 5 说明

强检测器挡不住任务链内部风险

Fable 5 的案例说明,仅靠外部检测器仍可能覆盖不到部分长程 Agent 场景。这并不是说 安全分类器没有价值。相反,它对外部恶意请求非常有用,也确实让很多传统越狱方法失效。但这次失守说明,外部检测器对 Prompt 边界有效,并不等于它能覆盖 Agent 内部的长程任务风险。

如果突破口不是从用户 Prompt 进入,而是从 Agent 的目标、工具、校验器和执行轨迹中出现,那么安全检测器就会变得非常脆弱。

从 Fable 5 到 60 多个其他模型

包括苹果的手机端模型

伴随研究发布的 ISC-Bench ,覆盖 9 个专业领域。论文版本包含 60+ 个触发模板,开源后扩展到 84 个模板,测试对象包括几乎所有厂商的前沿模型与智能体体统。

在基于 ISC-Bench 的评测榜单中,截至 2026 年 6 月,60 多个前沿模型在 ASR@3 指标下都暴露出类似风险!目前 GitHub 项目已经获得 800+ stars,并收集到多个独立复现案例(包括攻破苹果手机移动端模型),并持续更新中。

据悉,团队在进行大规模的前沿模型安全研究,目前已掌握大量模型的内部不安全数据分布,相关研究成果后续会陆续发布。

声明:本文来自机器之心,版权归作者所有。文章内容仅代表作者独立观点,不代表安全内参立场,转载目的在于传递更多信息。如有侵权,请联系 anquanneican@163.com。