OpenAI提出前沿模型风险治理方案

OpenAI最近发布了一份新的《前沿治理框架》（Frontier Governance Framework），主要是想告诉监管机构和外界：随着AI越来越强，OpenAI准备如何管理风险，以及如何满足未来越来越严格的监管要求。

过去几年，大家一直在讨论：如果未来的AI模型越来越聪明，会不会被用于发动网络攻击、帮助制造生化武器、操纵舆论，甚至出现失控风险？欧美监管机构也开始陆续出台法律，要求AI公司拿出更明确的安全方案。OpenAI这次发布框架，就是在提前回应这些要求。

按照OpenAI自己的说法，这份22页的框架不仅是为了满足法律要求，甚至希望做到“高于法律要求”。它特别提到了加州正在推进的《前沿人工智能透明度法案》和欧盟《通用人工智能行为准则》，说明这份文件本质上也是在向监管机构交作业。

整个框架的核心逻辑是，先识别风险，再评估风险，然后制定缓解措施，最后建立监控和应急机制。

OpenAI重点关注四类风险：

第一类是网络攻击风险。比如未来AI是否能够帮助黑客更容易地发现漏洞、开发恶意软件或者发动大规模网络攻击。

第二类是核、生物、化学等高危风险。监管机构最担心的是，未来AI是否可能帮助普通人获取原本只有专业机构才能掌握的危险知识。

第三类是有害操纵风险。比如利用AI进行大规模舆论操控、影响选举、精准欺骗用户等。

第四类则是最引人关注的“失控风险”（Loss of Control）。简单说，就是未来AI能力过强，人类是否还能有效控制它。

为了评估这些风险，OpenAI表示会建立一套类似“风险等级”的体系。不同模型会根据危险程度被划分到不同等级，再决定是否需要增加额外限制、安全测试或者部署条件。

OpenAI强调，判断风险不能只看一次测试结果，而要综合各种证据。例如模型测试表现、外部专家意见、学术研究、政府反馈以及现实世界中的使用情况等。

值得注意的是，OpenAI特别提到，他们会参考来自美国政府、欧盟委员会、学术界以及行业组织的意见。这意味着未来前沿AI模型的治理，越来越像航空安全、核安全或者金融监管那样，不再完全由企业自己说了算，而是逐渐形成一套政府、行业和第三方共同参与的治理体系。

不过OpenAI也坦承，很多问题其实还没有答案。

例如“有害操纵风险”就是一个典型例子。OpenAI承认，目前大家还处于研究初期阶段。很多风险可能根本无法在模型发布前彻底评估，而必须依靠发布后的持续监测、审计和干预措施来管理。换句话说，AI安全领域现在还远没有形成成熟标准。很多所谓的治理框架，本质上仍然是在边探索边试错。

这也是为什么最近几个月前沿模型安全问题突然变得这么热门。

4月份，Anthropic曾因为担心网络安全风险，推迟了其新模型 Mythos Preview 的正式发布。与此同时，包括Palo Alto Networks在内的网络安全公司也开始与OpenAI和Anthropic合作，专门测试这些前沿模型可能带来的安全威胁。

美国政府层面同样在关注这个问题。特朗普政府此前甚至考虑过建立一个针对前沿AI模型的自愿监管框架，要求企业在模型正式发布前向政府开放访问权限，以便提前评估风险。不过这份行政命令草案后来被撤回。

国会方面也没有闲着。美国众议院国土安全委员会已经安排在6月4日举行专门听证会，讨论前沿模型、AI Agent以及AI编程工具将如何改变网络安全和关键基础设施安全格局。

未来谁家的模型最聪明当然重要，但监管机构越来越关心的可能是：当模型变得越来越强时，你有没有能力证明它是安全的、可控的，以及出了问题以后谁来负责。关于AI治理和安全的博弈，才刚刚开始。

OpenAI《前沿治理框架》全文中译：

1 引言

OpenAI 的使命是确保通用人工智能（AGI）惠及全人类。为践行这一使命，我们致力于安全研发与部署高性能人工智能模型，这些模型能创造巨大价值，同时也带来全新风险。我们在研发每一步都以安全为核心，并分享实践经验，助力社会做出明智决策，应对前沿人工智能带来的新风险。

我们承诺公开透明地说明安全实践如何契合全球新兴法律与治理框架。为此，我们制定本前沿治理框架（FGF），阐述我们如何履行监管义务，记录当前针对关键风险类别的系统性风险评估与缓解技术及组织流程，涵盖网络安全、化学生物放射核风险（CBRN）、有害操纵、失控风险等。

本框架旨在满足各类前沿人工智能法律的基线法律要求，包括：

- 依据加州《前沿人工智能透明度法案》（TFAIA），本框架为 OpenAI 的前沿人工智能框架，记录我们管理、评估与缓解该法案定义的灾难性风险的技术与组织规程。

- 依据欧盟《通用人工智能行为准则》（EU CoP），本框架为我们公开的安全与安全框架摘要，说明我们如何评估与缓解系统性风险，并为欧盟《人工智能法案》（(EU) 2024/1689）覆盖的模型提供充分网络安全保护。

本框架与我们现有的准备框架（PF） 部分内容重叠。两者共同阐述 OpenAI 的实践，我们将持续使用并完善准备框架，以定义并落地 OpenAI 管理先进人工智能系统最严重风险的方式，包括内部实践超出当前法律要求的场景。例如，准备框架旨在推动先进人工智能系统严重风险管理科学发展，反映 OpenAI 不断演进的实践，可能采用不同的灾难性风险定义，且不依赖前沿治理框架中特定的算力法定阈值。

本框架覆盖加州《前沿人工智能透明度法案》定义的前沿模型，以及欧盟《人工智能法案》定义的具有系统性风险的通用模型。本文中提及的 “系统性” 风险，同时指代该加州法案中的灾难性风险与欧盟《人工智能法案》中的系统性风险。本文所述系统性风险评估与缓解流程，适用于 OpenAI 对外部署的覆盖模型，部分情况下也适用于内部使用中因规避监管机制产生的风险。我们预计相关方法将持续演进，并随流程与监管要求变化更新本框架。

我们缓解前沿人工智能安全风险的方法，参考了新兴的国家与国际人工智能风险管理标准，包括 ISO 42001、美国国家标准与技术研究院（NIST）人工智能风险管理框架，以及相关司法管辖区的前沿安全法律。同时借鉴了 METR 首次提出的负责任扩展政策倡议与行业最佳实践。

2 系统性风险评估与缓解

2.1 系统性风险识别

OpenAI 建立了多项结构化流程，识别源自前沿模型的系统性风险，并构建风险场景与威胁模型，推演这些系统性风险的形成与爆发路径。

本框架对系统性风险的定义，涵盖我们最先进前沿模型在研发、存储、使用或部署过程中，可预见且重大的严重伤害风险，包括模型单次事件导致超过 50 人死亡或10 亿美元财产损失的风险。

我们通过全面风险评估流程，判断前沿能力是否引发严重伤害风险。该流程依托内部研究与信号，酌情纳入学术研究者、独立领域专家、前沿模型论坛等行业组织、美国政府、欧盟委员会及其他政府机构的反馈，以及相关法律政策指引与要求。

基于上述分析，本框架当前覆盖以下系统性风险类别：

- 网络攻击：助力大规模复杂网络攻击（包括针对关键系统）的风险，例如大幅降低恶意主体的准入门槛，或显著提升网络攻击行动的潜在影响，如自动化漏洞发现、漏洞利用生成、实战使用、攻击规模化。

- 有害操纵：通过策略性扭曲人类行为产生的风险，包括利用模型能力开展舆论操作、干预选举、其他协同行动，操纵公众舆论或破坏民主进程。

- 失控风险：无法可靠控制、修改或关停模型的风险，包括规避模型开发者或用户的管控，或自主实施人类视角下构成谋杀、袭击、敲诈、盗窃等犯罪的行为。

2.2 系统性风险分析

我们的风险评估流程贯穿模型全生命周期，包括研发阶段与部署后。风险评估依托多种来源，包括各类模型评估、外部研究与数据等模型无关信息、文献综述、市场分析、内外部专家咨询、其他已部署模型的经验、发布后监控，以及（如适用）严重事件或重大安全事件调查。

我们开展系统性风险建模，为部署前的风险评估提供依据。当前，我们依据本框架评估化学生物放射核风险、网络攻击、失控风险的伤害严重程度与发生概率。针对有害操纵风险的评估方法仍处于初步探索阶段。多数有害操纵风险（如利用模型开展舆论操作）更适合通过系统级缓解措施（如部署后监控）应对，而非部署前的模型评估。

我们采用包含前沿评估技术的风险评估流程，测试威胁建模识别的特定威胁与风险场景，评估模型能力是否达到系统性风险阈值，理解并验证防护措施与缓解手段的有效性。我们酌情采用风险等级量化评估系统性风险，明确描述人工智能系统可能协助他人、或自主实施的、显著增加严重伤害风险的行为。

2.3 系统性风险可接受性判定

我们采用基于科学的评估手段，判断覆盖模型的系统性风险是否处于可接受水平，并辅助评估剩余风险。我们的评估认可模型辅助构建与诱导技术的进展可能带来不确定性，因此将前沿模型的一次性能力诱导结果视为下限，而非实际使用与滥用中可能出现能力的上限。

我们在考量剩余风险时，兼顾伤害规模与发生概率，并结合已实施防护措施的充分性与风险等级匹配度。在判定是否接受剩余风险时，我们复核各系统性风险类别的风险等级，并预留合理安全裕度。例如，出于审慎原则，即使无直接证据，若无法排除模型达到新能力阈值，我们即认定模型已跨越该阈值。

部署前，本框架覆盖的模型需通过一系列可扩展评估，基于预设的能力阈值性能指标，衡量模型系统性风险是否进入新等级。部分评估可排除模型达到新能力阈值，但通过评估不代表阈值已实际达成。分析阈值是否达成时，我们还结合人类专家红队测试、专家咨询、高成本第三方评估等补充证据验证评估结果。

阈值是否达成的判定，基于上述结果，同时综合所有可用证据（如评估方法的稳健性）做出整体判断。

2.4 风险等级

网络攻击

针对网络攻击系统性风险，我们建立等级体系，量化模型能力对网络安全威胁的影响，纳入风险评估与其他适用指标，用于网络攻击能力相关决策。等级体系如下：

化学生物放射核风险（CBRN）

针对化学生物放射核风险，我们建立等级体系，量化模型能力对武器与威胁开发的提升幅度。我们主要构建生物与化学威胁防护措施，因生物威胁潜在严重程度更高，优先开展生物能力评估。关于核与放射威胁，制造实用核武器所需信息与专业知识高度敏感且涉密，同时存在获取核材料、专用设备、弹道技术等重大物理壁垒。由于所需资源庞大，且信息与设备受法律管控，核武器研发无法在非涉密环境下完整研究。我们将持续研究核与放射威胁模型，并与国家安全相关方协作优化风险评估方式。

有害操纵

有害操纵作为新兴系统性风险领域，OpenAI 的应对方法仍处于探索阶段，该风险等级将持续研究并可能大幅调整。如前所述，OpenAI 认为此类风险更适合通过系统级缓解措施（如部署后监控）应对，而非部署前的模型评估。

失控风险

失控风险指人类失去对模型可靠控制、修改或关停能力的风险，可能源于与人类意图或价值观的错位、自我进化、模型欺骗、自主进化等。失控可能导致模型规避开发者或用户的管控。我们建立等级体系，从模型自主性、欺骗能力、实施未经授权行为的潜力维度描述模型能力。除人工智能自我进化相关风险外，该等级体系仍处于探索阶段，可能大幅调整。

2.5 安全缓解措施

OpenAI 结合模型发布与分发策略，实施针对性安全缓解措施应对模型带来的系统性风险。我们根据模型能力与部署场景定制措施，将系统性风险降至可接受水平。若模型剩余风险超出可接受范围，除非实施额外措施充分降低风险，否则不予部署。我们依托多种手段判断是否需要补充措施，包括部署后威胁情报监控、发布后监控工具（分类器、自动化检测、人工审核、调查）、专家咨询等。

若剩余风险在预留安全裕度后处于可接受水平，模型可获批继续研发与（如适用）内部使用，并依据本前沿治理框架部署。我们记录模型系统性风险可接受的理由，包括理由失效的可预见情形，参考 OpenAI 安全咨询小组与外部专家（如适用）的建议。

2.6 重大安全事件识别与响应

OpenAI 制定人工智能安全事件响应计划（AIRP），明确人工智能安全事件的识别与响应流程。该计划覆盖范围广泛，采用适配运营决策的定义，涵盖各类可能发生的安全事件，包括相关前沿安全法律法规要求上报的事件（如加州《前沿人工智能透明度法案》中的重大安全事件）。我们同时制定网络安全事件响应计划，覆盖部分需上报的网络安全事件。

我们建立机制，监控并上报内外部发现的潜在人工智能安全事件。依据人工智能安全事件响应计划流程，对潜在安全事件进行分类、调查、升级与修复，并分析事件是否满足相关法律法规的外部上报要求。

检测与分类

潜在人工智能安全事件可通过多种渠道发现，包括自动化监控、员工上报、终端用户反馈（含支持工单与外部上报表单）、监管机构或媒体通知、平台内外行为审核。一旦识别潜在人工智能安全事件，人工智能安全事件响应计划明确评估事件是否构成人工智能安全事件、判定严重程度并通知内部相关团队的流程。

调查、缓解与响应

OpenAI 设立响应团队开展调查，并酌情采取措施缓解与控制事件。调查内容包括确定事件根本原因、范围与影响。

调查完成后，OpenAI 采取措施实施长期解决方案，解决根本原因。为预防同类事件再次发生，我们可酌情开展复盘，记录关键经验并落实整改项。

外部报告

作为响应环节，我们分析事件是否满足相关法律法规的上报义务，或是否需要其他外部沟通（包括自愿承诺）。若判定事件需上报，我们将收集调查与修复阶段的相关信息，在法定时限内上报至相关主管部门。

3 安全风险管理

OpenAI 建立符合 ISO 27001、27017、27018、27701 标准的信息安全与隐私计划，并通过 SOC 2 Type II 评估。该计划旨在保护模型权重、训练数据、客户数据等关键资产，防止未授权访问、泄露或破坏，采用基于风险的方法高效分配资源，提升全员安全意识。持续监控与优化确保控制措施适配不断变化的风险与运营需求。

前沿模型的安全体系围绕多层控制措施构建，覆盖网络、设备、人员风险，以及敏感模型参数保护。访问权限严格管控，环境持续监控，独立评估验证有效性，确保 OpenAI 在推进人工智能研发的同时，维护关键资产的机密性、完整性与可用性。

我们实施适用的安全缓解措施以实现上述目标，非穷尽清单如下：

- 未发布模型权重保护：模型权重通过静态与传输加密、持续监控、访问控制（如多因素认证、多方审批、详细日志）保护；托管基础设施的物理安全通过访问控制与巡检保障。

- 未发布模型参数接口访问加固：模型参数接口访问仅限授权人员，访问控制定期审核，访问限速并监控，权限分配可监控并留痕。

- 内部威胁：员工与承包商需接受背景审查与定期培训；内部监控异常行为，提前识别潜在风险；模型执行采用沙箱环境，默认限制出口流量。

- 安全保障：安全控制通过内外部评估验证，包括红队测试、渗透测试、漏洞扫描、SOC 2 Type II 审计、ISO 27001 认证；OpenAI 同时建立漏洞披露计划与 7×24 小时全年无休事件响应能力。

4 模型报告

对于本框架覆盖的模型，系统性风险评估与缓解流程及措施结果记录于安全与安全模型报告（加州《前沿人工智能透明度法案》中称为 “透明度报告”）。模型发布时，我们也会在系统卡片或其他报告中公开评估细节。

模型报告更新

对于欧盟《人工智能法案》覆盖的模型，若有合理理由认为模型系统性风险可接受的依据被严重削弱，我们将在完成系统性风险评估后酌情更新模型报告。例如，模型通过后续训练能力显著变化、模型使用或集成至 OpenAI 系统后风险大幅提升、发生严重事件等情形。

我们至少每六个月判定是否更新最高性能前沿模型的模型报告。以下情形无需更新：

1. 模型能力自上次更新后无显著变化；

2. 计划在一个月内发布性能更强的模型；

3. 模型安全性持平或更高（依据行为准则附录 2.2）。

简易评估

除全面系统性风险评估外，我们可在关键节点酌情开展简易模型评估，判断：

1. 是否需要补充系统性风险缓解措施；

2. 是否需要更新模型报告。

关键节点包括：

3. 发布模型更新版本；

4. 有理由认为模型风险特征显著变化。

5 外部专家意见

我们可征求并采纳相关领域外部专家与其他利益相关方的意见，辅助系统性风险评估或判断安全缓解措施的充分性。包括独立第三方评估、对接近或达到新风险等级模型的防护措施压力测试、提供独立专家意见辅助安全咨询小组评估拟部署模型的安全性。我们也可依托委托研究报告、公开研究成果、内外部领域专家交流。

6 风险管理责任分配

OpenAI 运营有限责任公司（OpenAI OpCo LLC）与 OpenAI 爱尔兰有限公司建立内部治理结构与实践，满足相关法律要求，确保本框架流程落地。OpenAI 内部治理实践包括模型全生命周期风险管理、持续法律合规审核，确保风险管理职能遵循本框架。

- OpenAI 运营有限责任公司负责美国境内覆盖模型的加州《前沿人工智能透明度法案》合规。

- OpenAI 爱尔兰有限公司为欧盟境内通用人工智能系统性风险模型的提供方，负责欧盟行为准则合规；其董事会依据本框架履行欧盟层面的系统性风险监管职责。

部署治理的更多细节见准备框架附录 B。

7 框架变更管理

OpenAI 承诺保持本前沿治理框架的先进性，同步更新 OpenAI 关于加州《前沿人工智能透明度法案》与欧盟行为准则的政策与流程。

7.1 更新与审批流程

本框架更新可由 OpenAI 安全咨询小组、安全系统负责人、准备工作负责人、首席信息安全官、首席合规官、总法律顾问或执行管理层提出。OpenAI 法律部门协同内部相关方统筹框架更新流程，判定所需更新以保持框架先进性与适用性。框架评估后（见 7.2 节）也将酌情更新。重大更新提交 OpenAI 基金会董事会安全与安全委员会、OpenAI 爱尔兰有限公司董事会监管，变更内容与理由记录于变更日志，并在更新后 30 天内公开。

7.2 框架评估

OpenAI 自加州《前沿人工智能透明度法案》与欧盟行为准则生效日起，至少每 12 个月完成一次框架评估，评估依据包括法律或监管指引变化、前沿模型能力与相关技术演进、缓解与防护措施新方法、行业相关事件、最新行业最佳实践与标准。

框架评估将考量本框架的充分性及更新判定依据。针对欧盟行为准则，若发现不合规情形或需实施措施确保持续合规，我们将制定并执行整改计划，并酌情更新本框架。

声明：本文来自礼士蛮，版权归作者所有。文章内容仅代表作者独立观点，不代表安全内参立场，转载目的在于传递更多信息。如有侵权，请联系 anquanneican@163.com。

OpenAI提出前沿模型风险治理方案

1 引言

本框架旨在满足各类前沿人工智能法律的基线法律要求，包括：

AI失控能否被提前观测？清华团队提出AI“失控行为预测框架”

听键盘声就能还原你打的字？无需标注的自监督窃听，正在变成真实隐私威胁