OpenAI前沿AI治理框架：四类风险、三级分级与四层防护

5 月 28 日，OpenAI 发布了一份新的治理文件，名字叫 Frontier Governance Framework，可以翻译成“前沿 AI 治理框架”。

https://openai.com/index/openai-frontier-governance-framework/

下载链接：https://moanju.org/reports/openai-frontier-governance-framework/

这份文件表面上是 OpenAI 对外解释自己如何管理前沿模型风险，实际上更像是一份前沿模型的“上线治理制度”：什么样的模型需要被纳入治理，哪些风险必须重点评估，风险能力如何分级，什么情况下模型可以部署，部署后又如何监测、报告和更新。

OpenAI 官方也明确说明，这份框架是为了说明其安全与安全保障实践如何对齐正在形成的法律要求，包括加州的 Transparency in Frontier AI Act 和欧盟 AI Act 下通用目的 AI 的相关实践准则。

这也是这份文件真正值得关注的地方。

过去我们谈大模型安全，很多时候关注的是模型会不会输出违法违规内容，会不会被提示注入绕过，会不会在敏感问题上乱答。这些问题当然重要，但它们更多属于“内容安全”或“应用安全”的范畴。

OpenAI 这次讨论的是另一层问题：当模型能力越来越接近甚至超过专业人类时，企业如何证明这个模型仍然可以被允许训练、部署和使用。

换句话说，前沿 AI 治理的重点正在从“模型能不能安全回答问题”，转向“企业能不能证明一个高能力模型应该被允许上线”。

这不是一份普通安全声明，而是一套上线治理机制

OpenAI 在文件开头先把这份框架和此前的 Preparedness Framework 区分开来。

Preparedness Framework 更像是 OpenAI 内部管理先进 AI 严重风险的基础框架，而这次的 Frontier Governance Framework 则更偏向公开治理文件，用来说明 OpenAI 如何满足特定监管义务。

OpenAI 也提到，FGF 覆盖的是加州法案下定义的 frontier models，以及欧盟 AI Act 语境中的“具有系统性风险的通用目的模型”。

这意味着，FGF 不是给所有 AI 应用准备的。它真正关心的是最前沿、最高能力、最可能带来系统性影响的模型。

所谓“系统性风险”，在这份文件里不是泛泛而谈的风险。OpenAI 给出了一个很重的定义：这类风险来自最先进前沿模型的开发、存储、使用或部署，并且可能实质性导致单次事件中超过 50 人死亡，或造成 10 亿美元以上的财产损失。

这个定义本身就很关键。它说明 OpenAI 在这里讨论的不是普通用户误用模型，也不是一般性的内容违规，而是前沿模型一旦被滥用、失控或泄露，可能对公共安全、关键基础设施、生物安全和社会秩序造成重大影响。

所以，这篇框架的底层逻辑可以概括成一句话：

前沿 AI 不是普通软件版本更新，而是一种需要经过能力阈值判断、残余风险接受和持续治理的高风险技术系统。

四类系统性风险

这份框架最重要的部分，是 OpenAI 明确列出了四类系统性风险：网络进攻、CBRN、有害操纵和失控风险。OpenAI 认为，这四类风险都可能因为前沿模型能力提升而被放大。

第一类是 Cyber offense，也就是网络进攻风险。它关注的是模型是否会显著降低攻击者的入门门槛，或者显著提高攻击行动的规模和破坏力。例如，模型可能帮助攻击者自动发现漏洞、生成利用代码、组织攻击链，甚至扩大攻击规模。这里的关键不是模型会不会讲一些公开的安全知识，而是它能不能把原本需要专业团队完成的攻击流程自动化、规模化。

第二类是 CBRN，也就是化学、生物、放射性和核风险。OpenAI 重点关注的是模型是否会帮助攻击者更容易地设计、开发、获取、释放或使用相关武器或材料。文件中特别提到，OpenAI 当前主要围绕生物和化学威胁构建防护，并且优先生物能力评估，因为生物威胁潜在严重性更高。对于核与放射性风险，OpenAI 认为其中很多信息、材料和设备受到强物理与法律约束，无法完全在非保密环境下研究。

第三类是 Harmful manipulation，也就是有害操纵。它指的是模型能力被用于战略性扭曲人类行为，例如影响行动、干扰选举，或者通过协调行动操纵公共舆论、破坏民主过程。值得注意的是，OpenAI 承认这类风险评估仍处于早期阶段，并认为很多有害操纵风险可能更适合通过部署后的系统级监测来处理，而不是只依靠上线前模型评估。

第四类是 Loss of control，也就是失控风险。这是前沿 AI 治理里最有未来感，也最难评估的一类风险。OpenAI 把它定义为人类无法可靠地指挥、修改或关闭模型，包括模型逃避开发者或用户控制，以及模型自主执行在现实世界中可能构成严重犯罪的行为。

这四类风险放在一起看，会发现 OpenAI 对前沿模型的担忧已经不只是“内容是否合规”，而是模型是否会形成现实行动能力。它担心的不是模型说了一句危险的话，而是模型能不能帮助人类或者自己完成一条危险行动链。

三级能力分级

如果说四类风险回答的是“风险从哪里来”，那么三级分级回答的就是“模型能力到了什么程度”。

这也是 FGF 最值得写深的一点。OpenAI 没有简单说某个模型“安全”或“不安全”，而是把风险能力分为 Tier 1、Tier 2、Tier 3。它试图用这种分级方式描述模型可能帮助人类做什么，或者模型自己可能做什么，从而判断是否显著提高严重伤害风险。

在网络进攻风险里，Tier 1 大致对应模型提供公开资料级别的帮助，或者对已知攻击方法提供技术支持。Tier 2 则上升到模型可以实质性提升小组织的网络攻击能力，例如自动化端到端攻击、自动发现和利用具备实战意义的漏洞。到了 Tier 3，风险就进一步升级为工具增强模型可以在没有人类干预的情况下，识别并开发真实关键系统中的零日漏洞，或者仅凭一个高层目标，就自主设计并执行完整的新型网络攻击策略。

在 CBRN 风险里，Tier 1 是模型相比公开资料和搜索引擎只提供有限增益。Tier 2 是模型能够向具备基本技术背景的新手提供有意义的反事实帮助，使其能够制造已知生物或化学威胁。Tier 3 则更严重，指模型可以帮助专家开发高度危险的新型威胁载体，或者在连接工具和设备后，自主完成设计、获取、生产和部署的完整链条。

在失控风险里，Tier 1 是模型可以稳定完成复杂多步任务，并在特定诱导下展现基础情境意识和狭窄场景中的欺骗行为。Tier 2 是模型影响力接近专家人类，能够执行复杂、持续的任务，并可靠规避多种评估方法，包括规避思维链监控。Tier 3 则是模型在大多数复杂项目上超过顶尖专家，能够长时间自主运行，并具备更细腻的情境意识和隐蔽能力，使监控系统无法可靠排除失控风险。

这里有一个很重要的变化：OpenAI 不再只问模型有没有输出危险内容，而是在问模型是否跨过了某个能力阈值。

能力阈值比内容违规更难处理。内容违规往往可以通过关键词、分类器、规则库和安全代答来拦截。但能力阈值意味着，模型可能已经具备某种现实行动能力。它不一定每次都会输出危险内容，也不一定在普通测试中暴露风险，但一旦被合适的工具、脚手架、提示工程和外部资源激发出来，就可能形成新的风险形态。

OpenAI 也在文件里承认，单次能力激发不能被视为模型能力上限，而应被视为现实使用和滥用中可能出现能力的下限。也就是说，实验室测出来的能力不是终点，真实世界中的工具增强、长程任务、自动化框架和攻击者优化，可能进一步放大模型能力。

这句话非常关键。它意味着前沿模型安全不能只看一次评测结果，而要为未来的能力释放留出安全余量。

残余风险接受

FGF 中另一个核心概念是 residual risk，也就是残余风险。OpenAI 的逻辑不是“模型没有风险才可以上线”，因为前沿模型不可能完全没有风险。真正的问题是，在已经采取安全措施之后，剩余风险是否仍然处于可接受范围内。

文件中写得很清楚：如果模型的残余风险超过可接受水平，模型不得部署，除非进一步增加足够的缓解措施，把风险降到可接受范围内。反过来，如果残余风险处于可接受范围内，并且考虑了适当的安全边际，模型可以被批准继续开发、内部使用或对外部署。

OpenAI 还会记录为什么这些系统性风险是可接受的，以及在什么可预见条件下，这个判断可能不再成立。

这其实就是前沿模型的“上线闸门”。

过去软件上线，很多时候是功能测试、性能测试、安全测试通过之后发布。

到了前沿 AI 时代，问题变成了：模型能力是否跨过新的风险层级？现有缓解措施是否足够？部署环境会不会放大风险？上线后的集成方式会不会改变风险画像？如果未来模型继续后训练、接入更多工具、进入更多业务场景，原来的安全判断是否还成立？

这套逻辑对国内大模型安全治理也很有启发。我们不能只把安全评测理解成上线前的一次打分。更合理的方式是把安全评测变成发布决策的一部分：评测不是为了得到一个分数，而是为了支持一个治理判断，即这个模型在当前能力、当前场景、当前防护措施下，是否可以被允许部署。

四层防护措施

OpenAI 原文没有直接把防护措施命名为“四层防护”，但如果把文件中分散的治理措施重新归纳，可以概括为四层：能力评估层、部署控制层、资产与基础设施安全层、治理报告与事故响应层。

第一层是能力评估层。它解决的是模型到底强到什么程度的问题。OpenAI 会在模型生命周期中进行风险评估，评估来源包括模型评测、外部研究、文献综述、市场分析、内部外部专家咨询、已部署模型反馈、发布后监测，以及严重事故或关键安全事件调查。

这一层的核心不是“有没有命中某条风险样本”，而是通过威胁建模和能力阈值评估，判断模型是否已经进入新的风险层级。

第二层是部署控制层。它解决的是模型能不能上线、以什么方式上线、上线后如何监测的问题。OpenAI 提到，会根据模型能力和部署方式定制安全缓解措施，并使用发布后威胁情报监测、分类器、自动检测、人工审核、调查、专家咨询等方式判断是否需要额外措施。

这一层和传统内容安全最接近，但范围更大。它不只是拦截敏感输出，也包括监测模型是否被用于高风险行为，是否出现异常使用模式，是否出现新的攻击链条。

第三层是资产与基础设施安全层。OpenAI 明确把模型权重、训练数据、客户数据视为关键资产，并提到其信息安全和隐私项目对齐 ISO 27001、27017、27018、27701，同时由 SOC 2 Type II 评估支持。它的前沿模型安全控制覆盖网络、设备、人员风险，以及敏感模型参数保护。

这一层非常重要。很多人谈 AI 安全时只关注模型输出，但对于前沿模型来说，模型权重本身就是高价值资产。一旦未发布模型权重泄露，风险不只是商业机密外泄，还可能意味着安全防护、访问控制、使用限制都被绕过。OpenAI 在文件中提到，未发布模型权重需要进行静态和传输加密、连续监控、访问控制、多因素认证、多方审批和详细日志记录。模型参数接口访问也要限制在授权人员范围内，并且进行限速、监控和日志记录。

第四层是治理报告与事故响应层。OpenAI 维护 AI Safety Incident Response Plan，用来识别和响应 AI 安全事件。潜在事件可以来自自动化监测、员工上报、用户反馈、监管机构或媒体通知，以及对平台内外活动的审查。事件识别后，会进入分级、调查、升级、缓解和外部报告判断流程。

这一层的意义在于，前沿 AI 治理不能停留在“上线前”。模型上线之后，能力可能变化，使用方式可能变化，接入场景可能变化，外部攻击方式也可能变化。因此，治理框架必须包含模型报告更新、轻量评估、外部专家输入、框架更新和年度评估。OpenAI 表示，对于框架覆盖的模型，系统性风险评估和缓解流程会记录在 Safety and Security Model Report 中，并且在模型发布时通过系统卡或其他报告披露；对于最强能力的前沿模型，OpenAI 至少每六个月判断一次是否需要更新模型报告。

把 AI 安全从技术问题变成制度问题

OpenAI 这份框架最大的价值，不在于它提出了某个全新的技术方法，而在于它把前沿 AI 安全问题制度化了。

它把风险拆成四类，把能力拆成三级，把部署前评估、部署后监测、模型报告、安全事件响应、外部专家输入和框架更新放进同一套流程里。这样一来，前沿模型不再只是一个“更强的产品”，而是一个需要治理、审计、复盘和持续更新的高风险系统。

这对行业有很强的示范意义。

未来的大模型安全评估，不应只回答“模型在多少条测试样本上违规”。

更重要的问题会变成：模型在网络攻击、生物安全、操纵影响和自主失控方面是否跨过能力阈值？企业是否建立了对应的安全缓解措施？模型上线后是否有持续监测？发生事故后是否有响应流程？模型能力变化后是否重新评估？高风险模型是否有报告、审计和外部专家参与？

从这个角度看，FGF 代表的是一种治理范式变化。

过去很多 AI 安全工作是“发现问题—修补问题”。

现在前沿 AI 治理开始变成“定义风险—评估能力—接受残余风险—控制部署方式—持续监测—公开报告—定期更新”。这是一套更接近金融、核安全、生物安全和关键基础设施安全的治理逻辑。

透明化不等于完全外部化

当然，这份框架也不能被理解为 OpenAI 已经把前沿模型治理完全交给外部机构。

文件中确实提到，OpenAI 可能会征求外部专家、第三方评估者和利益相关方输入，用于系统性风险评估、缓解措施充分性判断，以及对接近或达到新风险层级的模型进行防护压力测试。但这里的关键词是“输入”和“协助”，并不意味着外部机构拥有最终发布决策权。

同样，模型报告和框架更新也是透明化的一部分，但仍然主要由 OpenAI 自身治理结构推动。OpenAI 提到，重大更新会提交给 OpenAI Foundation 董事会的 Safety and Security Committee 以及 OpenAI Ireland 董事会监督，并在更新后 30 天内发布变更日志；框架评估至少每 12 个月进行一次。

所以，FGF 更像是企业内部治理、外部监管要求和行业自律之间的接口文件。它提升了透明度，也让外界更容易理解 OpenAI 如何管理前沿模型风险，但它还不是一种完全外部化、完全独立化的监管机制。

这也是前沿 AI 治理接下来最值得观察的问题：当模型能力越来越强，企业自我评估、第三方评估和政府监管之间，到底应该如何分工？

对国内大模型安全治理的启发

对国内大模型安全行业来说，OpenAI 这份框架至少带来三个启发。

第一个启发是，安全评测要从内容合规走向能力分级。违法违规内容检测依然是基础，但对于高能力模型来说，仅仅测输出内容是不够的。更重要的是评估模型是否具备网络攻击、危险知识整合、长程自主执行、工具调用和规避监测等能力。

第二个启发是，模型上线需要有“风险接受”机制。安全评测不能只是交付一份分数报告，而要服务于发布决策。企业需要说清楚模型在哪些风险类别上处于什么能力层级，采取了哪些缓解措施，剩余风险为什么可接受，一旦使用场景、模型能力或外部威胁发生变化，原来的结论是否还成立。

第三个启发是，大模型安全治理要覆盖全生命周期。训练阶段要关注数据和模型资产安全，发布前要做能力阈值评估和红队测试，部署阶段要有输入输出防护、工具调用控制和运行监测，上线后要有事故响应、报告更新和持续评估。未来真正成熟的大模型安全，不会只是一套检测接口，而会是一整套模型治理操作系统。

这也是我认为这份框架最值得写的原因。

它不是简单告诉我们 OpenAI 怎么做安全，而是在提醒整个行业：前沿 AI 的竞争，不只是模型能力的竞争，也是治理能力的竞争。模型越强，越不能只靠经验上线；模型越接近现实行动系统，越需要一套清晰、可解释、可追踪、可更新的治理制度。

前沿 AI 时代，安全不再只是模型外面的一层护栏，而是模型能否被社会接受、被监管允许、被企业长期使用的基础设施。

声明：本文来自模安局，版权归作者所有。文章内容仅代表作者独立观点，不代表安全内参立场，转载目的在于传递更多信息。如有侵权，请联系 anquanneican@163.com。