当地时间6月12日,人工智能公司Anthropic发布声明称,已收到美国政府以国家安全为由下达的出口管制指令,要求暂停所有外国籍人士对其人工智能模型Fable 5和Mythos 5的访问权限。

据悉,限制覆盖美国境内外所有外国籍用户,甚至包括Anthropic的外籍员工。受此影响,Anthropic表示将立即禁用上述两款模型以确保合规,其他Anthropic模型的访问不受影响。
Anthropic在声明中表示,公司于美国东部时间当日下午5时21分收到政府指令,但信件未提供国家安全关切的具体细节。据公司了解,美国政府声称已掌握一种可绕过Fable 5安全防护的“越狱”方法。Anthropic称已对相关技术报告进行审查,发现该技术仅能识别少量已知的轻微漏洞,且其他公开可用模型无需绕过防护即可发现同类漏洞。
针对Fable 5的安全防护体系,Anthropic重申了此前公布的多项核心原则:公司已建立严格的防护措施,大幅降低了模型被滥用于网络安全相关任务的风险,部分用户甚至反馈防护规则过于宽泛;在模型发布前,Anthropic已与美国政府、英国人工智能安全研究所(AISI)及多家第三方机构合作,对Fable 5的防护机制开展了数千小时的红队测试。测试结果显示,其防护效果显著优于此前已部署的所有模型,且未发现可广泛绕过防护、解锁大量网络能力的通用越狱方法。
值得一提的是,Anthropic同时坦言,当前任何模型提供商都无法实现完全的防越狱能力——行业内所有防护措施都可能遭遇非通用越狱攻击,未来也不排除出现通用越狱方法的可能。
为此,公司对Fable 5采用了纵深防御策略,一方面限制非通用越狱的适用范围,另一方面大幅提高了通用越狱的实现成本;同时结合客户数据30天留存政策,通过持续监控快速检测并阻断攻击。Anthropic强调,通过这一策略,Fable 5的风险已降至与行业内现有已部署模型相当的水平。目前,公司尚未收到任何可能导致有害结果的非通用越狱情况披露。
Anthropic指出,美国政府仅以口头证据表明存在一种潜在的窄范围非通用越狱方法,其核心机制是诱导模型读取特定代码库并修复软件缺陷。经公司核查,该演示所展现的能力在OpenAI GPT-5.5等其他模型中同样普遍存在,且正是网络安全防护人员日常用于维护系统安全的功能。Anthropic表示,将在未来24小时内分享更多细节。
尽管已按政府指令执行限制措施,Anthropic仍明确表达了对该决定的异议,认为仅凭窄范围潜在越狱的发现,不应召回已面向数亿用户部署的商业模型,并强调若这一标准在全行业推行,将基本导致所有前沿模型提供商停止新模型部署。
此前,Anthropic曾公开表示,支持政府通过透明、公平、清晰且基于技术事实的法定程序阻止不安全的模型部署,但认为此次政府行动不符合这些原则。
Anthropic在声明中向受影响的客户致歉,称此次限制源于误解,并表示正在积极与相关方面沟通,争取尽快恢复Fable 5和Mythos 5的访问权限。
文章由AI辅助生成,参考来源Anthropic,互联网公开信息
声明:本文来自赛博研究院,版权归作者所有。文章内容仅代表作者独立观点,不代表安全内参立场,转载目的在于传递更多信息。如有侵权,请联系 anquanneican@163.com。