前沿AI风险管理框架系列

——五大框架的横向对比

作者:安远AI 安全治理高级经理 程远

导言

在之前的文章中,我们分别介绍了五家国际领先的基础大模型公司——Anthropic、OpenAI、Google DeepMind、Meta和xAI——各自提出的前沿AI风险管理框架(名称各异,本文统称为“框架”)。2024年5月的首尔AI峰会上,这五家公司均签署了《前沿人工智能安全承诺》(Frontier AI Safety Commitments),2025年以来,除Meta仅发布了初版框架外,其余四家公司都对各自的框架进行了更新迭代。本文对五家公司的最新版框架进行了横向对比,我们发现,这些框架在理念上有许多共通之处,但每家也有各自的特色与不足。希望这些分析能为国内企业制定自己的AI风险管理框架提供参考,同时也鼓励国内企业结合中国国情和自身业务特点,制定并落实更具中国特色、引领国际的AI风险管理方案。

公司

特色亮点

不足之处

Anthropic

• 最早系统化提出 RSP + ASL 分级与“安全红线”

• 强调研发早期前置防护措施,风险不可控则不部署

• 行业示范效应强、框架迭代频繁

• ASL-4(及更高)定义/措施细节缺口大

• 评估与要求更偏定性,清晰度下降

• 第三方审查偏程序合规,实质验证不足

OpenAI

• 量化“严重危害”门槛,体系更细化

• 高 / 关键能力分级;关键级别即便不部署也需开发阶段实施缓解措施

• “研究类别”前瞻性覆盖长程自主、能力隐藏等难测高危能力

• 内部治理与人员动荡削弱外界信任

• 安全文化与产品节奏的张力更显著

• 举报人保护/问责等机制被质疑不足

Google DeepMind

• 明确纳入“未对齐”(misalignment)风险:采用自动化思维链监测判断模型是否具备初步情境感知或规避监督的能力

• 关键能力与安保措施分级映射,强调权重保护与内部威胁防范

• 引入安全论证 (safety case):以论证/证据驱动部署决策

• 治理偏自上而下,员工知情与异议渠道弱

• 外部独立监督机制不足(审查多在内部完成)

• 透明度更多是自我披露而非可验证审计

Meta

• 结果导向因果链:从灾难性结果倒推 AI 是否为关键使能因素

• 降低“因能力存在就过度归因”的倾向,为模型迭代预留空间

• 强调风险–收益平衡与开放促进外部社区参与

• 风险类型覆盖较窄(主要为网络/生化),未涉及失控

• “AI必须独特促成”标准可能过高,低估叠加危害

• 初版框架细节与可操作性不足,成熟度待检验

xAI

• 聚焦恶意使用 + 失控两类风险

• 首次给出可量化灾难性风险阈值(>100 死亡或 >$10 亿损失)

• 行为维度拆解 + “瓶颈步骤/多层防护”思路

• 阈值缺乏硬性后果:未承诺超出阈值暂停训练/部署

• 评估与安保较依赖自我声明,独立审计不足

• 失控评估阈值(如诚实度)严谨性与约束力存疑

PART.01

框架的共性

通过横向对比不难发现,五家公司的前沿AI风险管理框架在许多方面存在共性:

  1. 关注滥用风险:所有框架均将AI的恶意使用/滥用风险置于优先关注的位置。例如,这些框架都特别提及AI关键能力可能带来的严重滥用风险,包括生物和化学安全威胁,以及AI协助实施网络攻击等。这反映出国外同行对这类风险逐渐达成了共识。

  2. 分级设定风险阈值:各公司均基于模型的潜在危险能力或可能导致的灾难性结果,设定了分级的能力/风险阈值。这其中部分为量化阈值,例如,OpenAI在框架中明确将“严重危害”定义为可能导致数千人死亡或数千亿美元经济损失的情形,并据此设定模型风险等级。xAI则将灾难性风险阈值定为可能导致超过100人死亡或超过10亿美元损失的大规模杀伤性武器或网络恐怖袭击事件 ,并相应启动“强化防护措施”。

  3. 全生命周期的风险管理:所有框架均强调在AI系统全生命周期中进行风险管理,涵盖模型训练期间、部署前以及部署后的多个阶段。它们建立了分阶段的评估机制和具体评估方法,并考虑模型能力、部署环境以及外部威胁者的能力/资源等因素对风险的影响。例如,各公司都会在模型开发过程中进行红队测试,并在可能时邀请独立第三方对模型进行安全评估,以发现潜在的新型风险。

  4. 分级风险缓解措施:各公司按照不同的能力/风险阈值,为模型制定了相应的风险缓解措施(包括部署和安保措施)。一旦模型达到更高的风险等级,就需实施更严格的安全措施,以防范滥用行为,并对未发布的模型权重实施严密的访问控制。例如Anthropic要求当模型能力达到更高“AI安全等级”(ASL)时,需要累积部署更严格的安全对策;OpenAI则针对不同威胁类别制定了具体的对策指引,包括在部署前识别所有可能滥用路径并为每一路径建立防护。另外,除xAI外,其余四家公司均承诺如果无法将风险充分缓解至低于这些阈值,就将停止开发或部署相关模型。

  5. 内部治理和外部透明:所有框架均建立了内部决策和监督机制,由公司内特定的团队或高管对模型的能力等级、缓解措施和发布策略做出决策,并设立内部问责制度,保障员工对于安全问题的知情和举报权利。同时,这些公司也都承诺一定程度的外部透明度,包括发布模型卡/系统卡披露模型风险评估方法和结果,引入外部专家意见,以及在可行情况下向政府监管机构提供信息。

  6. 落实最佳实践并定期更新:五家公司都采用了一系列安全实践来落实各自框架,如开展内部和/或外部红队演练、激励第三方报告漏洞、加强对模型权重的网络安全和内部人员威胁防范等。它们还在最新发布的模型卡/系统卡中公示相关安全测试结果和改进措施,以体现框架的执行情况。另外,各公司都会随着技术进展进行审查并更新其框架,在吸取实践经验的基础上不断迭代。

以上共性表明,前沿AI风险管理已逐渐在国际领先模型公司中形成行业共识。这些企业正尝试用类似的思路和工具,将传统安全工程领域的理念(如分级防护、威胁建模、红队测试等)应用到AI模型的治理上。在签署国际承诺并公开框架后,它们也为监管机构和公众提供了一定程度的透明度(也有评论认为这些以企业自我披露为主的透明度,缺乏独立第三方的评审机制)。当然,在遵循共性之外,每家公司的具体框架还有其差异化的特点,反映了各家对AI风险的理解侧重和公司战略考量。

PART.02

各公司框架的特色与不足

横向比较五大框架,可以看到各家公司在实现上述共性要求的基础上,也发展出了各自独特的策略和侧重点。同时,每家框架也存在需要改进的不足之处。下面我们分别对Anthropic、OpenAI、Google DeepMind、Meta和xAI的最新框架亮点与局限进行分析。

01

Anthropic:

引领行业但细节有待完善

特色亮点

Anthropic是业内最早发布“大模型安全红线”策略的公司。早在2023年,Anthropic便公布了详尽的《负责任扩展政策》(RSP),提出AI安全等级(ASL)分级理念,将生物安全领域的分级管理思想引入AI模型治理。该框架成为行业第一个公开的前沿AI安全政策,与随后由多位AI顶尖科学家和治理专家共同提出的“不可逾越的AI红线”不谋而合。此后,Anthropic不断迭代更新RSP,承诺在模型研发早期即超前部署安全保障措施。Anthropic还率先明确承诺:不训练或部署任何可能造成灾难性危害的模型,除非已落实充分安全措施确保风险在可接受范围。总体而言,Anthropic的安全策略和实践在业界起到了一定的引领示范作用。

不足之处

然而,Anthropic最新版的RSP也暴露出一些问题和改进空间。首先,新版本并未对最高级别的AI安全等级ASL-4(以及潜在更高等级)给出清晰定义,仅承诺在模型达到ASL-3阈值时再制定ASL-4标准。实际上,Anthropic目前只列出了触发ASL-4的能力门槛,却没有提出相应更严格的评估方法和安全措施细节。原政策中要求的某些具体能力评估方法(如针对化生放核威胁的“预警性评估”)在新版中被弱化或省略。

其次,新版RSP将部分能力评估指标从具体量化标准改为更笼统的定性描述,降低了框架的清晰度。另外,对缓解措施有效性的验证方法也缺乏详述,尤其是当模型能力可能出现“欺骗对齐”的情况时,如何确保缓解方案真的奏效仍不明确。

最后,Anthropic提到会引入第三方审查,但目前更多侧重于程序合规性的检查,而非对模型实际安全性的独立验证,这在实质性风险保障上力度不够。总体而言,Anthropic虽然理念先进,但在最新框架的执行细节和透明度上还有提升空间。

02

OpenAI:

标准严苛但安全承诺存疑

特色亮点

OpenAI最新版的框架(即“准备框架”,Preparedness Framework)比第一版呈现出更细化的风险管控标准。首先,它明确界定并量化了“严重危害”风险的门槛:例如将可能导致“数千人死亡”或“数千亿美元损失”视为需要特别关注的严重危害。在此基础上,OpenAI将模型能力划分为“高能力”(High)和“关键能力”(Critical)两个主要等级,并要求凡是达到“关键能力”的模型,不论是否计划对外部署,都必须在开发阶段就落实足够的安全保障。这一规定意味着,对于可能带来全新灾难性风险路径的模型,OpenAI在训练过程中就会加装安全限制。

另外,OpenAI的框架还引入了前瞻性的“研究类别”(Research Categories)概念,专门列出一些尚未完全具备测评方法但潜在高危的能力领域,如长程自主性、能力隐藏(Sandbagging)、自主复制与适应、破坏安全防护等。这些被列为“研究类别”的能力目前不满足成为正式风险跟踪类别的标准,但OpenAI提前将其纳入关注范围,投入威胁模型和评估方法的开发,以防患于未然。这种前瞻布局在同行中较为突出。

不足之处

尽管OpenAI在框架文件上制定了高标准,近一年多来的一系列内部动荡使外界对其安全承诺的可信度产生怀疑。首先是团队人事的变化:据报道,OpenAI原本在2023年成立了专门研究超级智能对齐的“超级对齐团队”,但不到一年时间里,该团队已有近半成员先后离职,团队实质上陷入瘫痪。有前员工披露,OpenAI管理层过度强调产品进度,导致很多安全研究人员“心灰意冷”选择离开。2025年8月多名OpenAI前员工公开发布联名信,指控公司在追求AGI的过程中忽视风险,高管对待安全工作的态度令人担忧。信中提到OpenAI存在缺乏举报人保护、过早部署GPT-4、安全漏洞频发等问题。这一系列事件使外界质疑:OpenAI在文件中承诺的高安全标准,是否真正落实在了日常决策和实践中。尽管OpenAI对外宣称“安全原则是公司使命的核心之一”,但其内部治理和安全文化是否跟得上技术的快速推进,还有待时间检验

03

Google DeepMind:

关注未对齐风险

但治理措施有待加强

特色亮点

Google DeepMind(以下简称DeepMind)发布的“前沿安全框架”(Frontier Safety Framework)有几个鲜明特点。首先,它在业内首度正式关注“未对齐”风险(misalignment),即聚焦于模型何时可能形成一种基础层面的工具性推理能力——在不施加额外缓解措施的情况下,可能使模型具备削弱人类控制的潜力。为此,DeepMind在新版框架中提出了一套自动化的思维链监测方案:他们尝试监测模型是否出现了“工具性推理”的苗头(例如情境感知或规避监督的能力),一旦发现可疑迹象即采取额外的缓解措施

其次,在风险防范方面,DeepMind采用了分级的安保措施,并明确借鉴了RAND公司提出的安保等级原则,将安保力度分级映射到模型的关键能力等级(CCL)上。例如,当模型达到更高危的CCL时应配套更高级别的网络安全和访问控制措施,特别强调保护模型权重不被未授权获取,因为一旦权重外泄,大部分内置安全措施都可能被绕过。DeepMind指出,对于能够显著加速或自动化AI研发的模型,行业应提前采取超常规的安保措施,因为此类能力一旦扩散,则会显著增强威胁行为体快速迭代模型的能力,并可能引发失控的灾难性后果。

此外,DeepMind创新性地引入了“安全论证”(safety case)的方法来评估缓解措施的有效性。具体而言,当某模型达到CCL,需要部署严格缓解方案时,DeepMind要求研发团队准备一份系统的“安全论证”报告:论证所采取的所有防御措施如何将该模型的严重风险降低到了可接受水平。这份论证需要经过公司内部的治理委员会审核通过,模型才能对外大规模部署,部署后也要持续更新安全论证。

不足之处

尽管DeepMind框架在技术层面提出不少新理念,但在治理机制上相对保守单薄。一方面,其内部治理流程主要是自上而下的决策:由内部跨职能团队评估风险并向高层报告,由管理层最终决定模型是否部署。框架中并未提及赋予普通员工了解模型风险级别或提出异议的渠道,更没有明确内部举报人保护等措施。这相比Anthropic和OpenAI等公司在内部倡导的“人人有责”安全文化显得不足。

另一方面,DeepMind在外部监督和透明方面的措施也相对有限。框架除了宣称会遵守信息披露义务、与研究社区和政府开展合作之外,没有进一步的第三方参与机制。比如,未见其承诺邀请独立机构审核安全论证,也未提及设立外部顾问委员会等。可以说,DeepMind目前主要是内部自律+事后披露的模式,缺乏强有力的外部制衡,这一点上与其他公司相比较为薄弱。

04

Meta:

结果导向的方法与风险/收益平衡

特色亮点

Meta 于 2025 年 2 月首次发布《前沿 AI 框架》,也是全球首份针对开源模型的风险管理框架。其突出特色在于在风险识别阶段采用以结果为导向的因果链评估方法:不是仅根据模型是否具备某项“危险能力”来判断风险,而是从潜在灾难性结果出发,倒推 AI 在其中所扮演的作用。框架重点聚焦网络安全和生物化学风险两类高后果领域,先界定最坏情形(如大规模网络攻击瘫痪关键基础设施、AI 助长生物武器制造),再评估 AI 是否在因果链中构成不可替代的关键使能因素(“AI使能能力 → 威胁场景 → 灾难性结果”)。如果 AI 并未显著、独特地使某类威胁变得可行,Meta 认为风险仍处于相对可控范围,从而避免因能力存在本身而过度放大风险,为模型迭代保留空间。基于这一判断逻辑,Meta 设置了相应的风险阈值与分级决策机制:一旦模型在特定威胁场景中的作用超过阈值,就必须采取缓解措施,甚至暂停发布。

同时,框架强调风险与收益的综合权衡,明确将社会效益(如技术创新与经济增长)纳入评估,力图在维持重大正面价值的同时将风险控制在可接受水平。作为开源 AI 的积极倡导者(可能未来会有变化),Meta 还认为开放发布(如 Llama 系列)有助于引入更广泛的外部评估与安全测试,提高模型可靠性,体现了其在“严防最严重风险”与“不过度限制有益能力发展与共享”之间的独特平衡思路。

不足之处

作为初版框架,Meta的方案也存在明显局限。首先,风险范围较窄。目前Meta只锁定了网络攻击和生化两大领域作为前沿模型需重点防范的灾难风险。然而AI潜在的灾难性风险并不止于此,例如自我复制、自我改进、“欺骗性对齐”导致的失控风险等。Meta框架暂未覆盖这些领域,可能低估了其他路径的高后果风险。一些批评者担心,Meta过于聚焦其选定场景,忽视了AI在其他领域累积风险的可能性。

其次,Meta采取“AI是否独特促成威胁”的阈值判断,虽然避免了把所有责任归咎AI,但也可能低估AI与人类恶意行为的叠加效应。现实中,哪怕AI只是提升了现有恶意行为的效率,也可能造成巨大的危害。仅当AI成为“唯一关键因素”才算超阈值,标准或许定得过高,不利于提前预防那些“AI作为助力”的风险情景。

最后,Meta的框架目前仍停留在原则层面,缺少具体实施细节和案例说明。相比其他公司已经历多轮迭代的框架,Meta的框架成熟度有待提升,后续能否根据实践反馈快速完善也是一大挑战。

05

xAI:

后起之秀的框架及其质疑

特色亮点

xAI是2023年由马斯克创立的新晋AI公司,今年8月发布了《风险管理框架》(Risk Management Framework, RMF)的正式版。作为后来者,xAI的框架篇幅不长,涵盖了恶意使用和失控两大风险类别,并且首次给出了一个具体、清晰且可量化的“灾难性风险”阈值(即可能导致“超过100人死亡或超过10亿美元损失”的大规模杀伤性武器或网络恐怖袭击事件),在业界较为领先。

在风险评估方法上,xAI 并未试图穷举所有高风险场景,而是将复杂风险拆解为可评估的模型行为维度,重点关注三类要素:模型的滥用潜力(如对越狱的脆弱性)、令人担忧的倾向(如欺骗或谄媚行为),以及双重用途能力(如进攻性网络攻击能力)。针对恶意使用风险,xAI 提出要识别风险场景中的“关键瓶颈步骤”,并通过多层、冗余的防护措施加以阻断,这一“分步骤—多道防线”的思路与 Anthropic 所强调的“深度防御”在理念上较为接近。

此外,xAI 在框架中也强调了一定程度的透明度与外部参与,包括列出具体评测基准、披露内部风险接受阈值,以及原则性地提及第三方审查和信息安全标准。这使其RMF在文本层面具备一定的可核查性,而非完全停留在抽象承诺上。

不足之处

总体而言,业界对xAI框架的评价较为负面,其在实质严肃性与治理约束力方面仍存在明显不足。 首先在对齐失控风险方面,xAI采用的指标令人质疑。它声称模型部署的风险接受标准是使模型在“MASK基准测试”上的“不诚实率”低于50%,这一阈值标准本身不太严谨。可以说,xAI在对齐评估上避重就轻,没有采用更直接的办法去发现模型隐藏意图(例如DeepMind提出的思维链监测或Anthropic倡导的对抗性审计)。

其次,框架在安全评估、安全防护与信息安全方面多为自我声明,缺乏独立渗透测试或第三方审计支撑,而现实中曝出的数据泄露与内部安全事件,进一步削弱了其可信度。框架既未承诺在超过阈值时暂停训练或部署,也未规定必须启动的应急治理流程,最终是否采取行动仍取决于 xAI 内部的自由裁量。这使得“量化阈值”更多起到风险描述或沟通作用,而非真正构成对公司行为的硬约束触发器。

最后,xAI在安全投入和研究能力上也远逊于其他巨头。据报道xAI专职安全人员寥寥无几,尚未开展有分量的前沿安全研究。近期,Grok因生成大量色情图片而受到欧洲监管方的严肃调查,之前更因生成大量反犹内容而受到用户的普遍指责。安远AI针对生物、化学、网络安全和失控领域的独立评测结果也同样表明,Grok的整体安全性与国内外同行相比处于较低水平。综合来看,xAI的风险框架更多停留在纸面,实际约束力和效果存疑。

总结

总的来说,五大公司的前沿AI风险管理框架既殊途同归,又各有侧重。它们在共同承诺下限(不让AI造成灾难性危害)的基础上,不同程度地探索了安全治理的边界:从Anthropic的谨慎前瞻,到OpenAI的严格量化;从DeepMind的技术创新,再到Meta的务实平衡,以及xAI的大胆宣称。这些框架的共性反映出业界在认识和管控AI极端风险上正在形成基本共识,而差异则体现了每家公司文化、战略和技术路径的不同

需要指出的是,这些框架存在一些普遍不足:比如风险评测结果多为自我声明和披露,缺乏实质性第三方独立审计;关注的风险领域较窄,仅关注部分滥用风险(如CBRN中仅评测生物化学威胁,对核和放射性威胁涉及较少),普遍未涵盖意外(如因系统故障或模型误判导致的灾难性后果)和系统性风险(如AI对社会经济的影响)等。

更重要的是,框架本身只是第一步,更关键的是在企业在实际运营中如何将其有效落实,并随技术发展不断更新。对于国内AI企业而言,这些框架提供了方法论上的启发:例如如何分级风险、如何划定阈值、如何进行分阶段评估、如何匹配风险缓解措施等等。同时,国内企业也应结合中国国情和自身实际,制定本土化的前沿AI安全方案,兼顾“发展与安全”。

PART.03

写在最后

必须指出,前沿风险管理框架依然是企业做出的自愿承诺,属于行业自律行为,而非强制监管要求。但仍对准备开发和部署最先进模型的大模型提供商及其下游系统开发商具有参考意义。

纵观全球,欧盟今年8月推出了《通用型人工智能行为准则》,其中对于具有系统性风险的GPAI模型提出了安全和安保的自愿承诺要求,包括制定模型的安全和安保框架,进行风险识别、分析、评估、缓解和治理措施,与上文这些大模型公司已经实施的安全政策和实践如出一辙。放眼国内,我国虽尚未针对人工智能专门立法,但2025年9月网安标委发布的《人工智能治理框架2.0版》明确提到了AI可能带来的灾难性风险(包含核生化导、网络攻击、失控等),同时涵盖了更广泛的社会、经济、环境和伦理影响,强调要从技术和管理两方面提出防范应对措施。

安远AI鼓励更多的中国AI企业做出安全承诺,建立自己的风险管理框架,并进一步落实最佳安全实践,为未来制定相关国家标准提供有力支持,为国际同行贡献中国视角和中国方案。

声明:本文来自安远AI,版权归作者所有。文章内容仅代表作者独立观点,不代表安全内参立场,转载目的在于传递更多信息。如有侵权,请联系 anquanneican@163.com。