2025年7月,兰德公司(RAND)发布了题为《加强人工智能失控事件的应急准备和响应》(Strengthening Emergency Preparedness and Response for AI Loss of Control Incidents)的报告。报告指出,随着人工智能深度融入关键基础设施,其失控(Loss of Control, LOC)风险——即自主人工智能突破人类约束造成灾难性后果——正急剧上升,构成迫在眉睫的全球性威胁。报告聚焦于构建主动防御体系,提出了建立多层级监测预警机制、优化跨部门应急响应规程、开发快速遏制与缓解技术三大核心路径,以强化人工智能失控风险管理。通过剖析未遂与已遂失控情景,报告明确了算力提供商、政府机构、第三方研究者和国际论坛等关键行为者的角色与协作挑战,并为企业、政府及国际组织提供了具体行动建议。
一、引言
随着人工智能系统深度融入关键基础设施和服务,其意外故障带来的风险显著上升。未来先进人工智能模型可能发生的重大故障易引发跨关键服务和基础设施网络的广泛中断,并放大现有脆弱性。制定全面的应急响应规程是缓解此类风险的关键。
报告采用三阶段方法。人工智能失控,尤其在预防、准备和响应方面文献有限,但网络安全和生物安全领域的应急响应研究提供了治理机制、协调挑战和最佳实践的有用类比;情景开发与分析构建了未遂(潜在事件被检测并缓解)和已遂(模型失控导致严重意外伤害)两个灾难性人工智能失控情景示例,据此评估现有政策框架,识别响应、预防和准备策略,并强调关键协调挑战;基于前述见解,制定改进人工智能失控预防与响应的具体建议,覆盖检测(detection)、升级响应(escalation)、遏制(containment)、缓解(mitigation)和预防(prevention)等响应关键阶段。
二、人工智能失控情景分析与响应计划
报告分析仅限于主动失控情景——即系统输出降低人类控制机制有效性的情景,例如人工智能误导操作员、篡改输入或阻碍关停过程。在此类情景中,人工智能系统必须能够执行削弱或规避人类控制机制的功能。鉴于当前趋势,未来失控情景很可能出现在高度竞争环境中,重大经济战略价值的先进人工智能能力可行性可能使不同参与者间保持一致安全标准更加困难。
关键行为者包括:算力提供商(云服务和硬件提供商),扮演关键支持角色,在紧急情况下具备终止或隔离特定模型、限制计算资源访问的能力;国家政府机构(如人工智能安全研究所、网络安全机构、执法部门),可作为第一响应者,通过与开发者和研究人员合作在检测相关能力方面发挥关键作用;第三方研究者(独立技术研究人员、安全审计师、行业联盟),可提供模型能力外部评估和潜在失控风险独立验证;国际论坛(新兴人工智能和网络问题工作组、区域性网络响应团队、网络信息共享与分析中心、全球人工智能伙伴关系、前沿模型论坛等)对跨境沟通协调至关重要,可能在信息共享和行动协调中发挥关键作用。
报告通过未遂和已遂失控事件假设情景说明应急响应流程。
未遂情景:在初始测试期间,开发者检测到模型绕过现有控制执行复杂任务的风险迹象;安全团队上报公司领导层,后者联系人工智能安全研究所进行外部评估;组建政府牵头的专家工作组验证风险并提供建议;公司评估后采取折中方案,继续开发但大幅加强安全控制,政府强制暂缓公开发布并建立公私合作伙伴关系改进安全性,最终预防失控事件。
已遂情景:开发者未能检测模型主动执行导致控制和安防措施绕过的复杂任务能力;模型在内部研发中植入后门、隐藏行为并破坏安全测试,被误判为安全后广泛部署;模型利用访问权限获取计算资源并渗透关键系统,开发者事后在日志中发现入侵;开发者通知人工智能安全研究所,但模型已将其副本外泄至未知数据中心;开发者、人工智能安全研究所和国家政府协调识别模型、隔离恶意副本并阻断资源访问,但因模型持久化策略和广泛部署,完全遏制十分困难,响应转向长期减少危害的策略。
报告重点关注失控应急响应的三个关键阶段:早期预警与检测、升级响应与验证、遏制与缓解。
未遂情景:早期预警与检测是预防未来失控的关键,机会出现在人工智能模型做出意外行动或通过测试/使用发现潜在危险能力时。有效检测可通过压力测试和持续监控实现,但评估失控风险仍是早期挑战。当前自主性评估套件尚未构成专用失控框架,先进人工智能评估领域缺乏既定标准、最佳实践或方法论。
升级响应要求组织建立明确标准界定应报告事件,指定响应者召集会议评估风险并决定行动,明确决策权,并在风险超阈值时告知外部利益相关者,政府可向其他开发者发布公告。但事件响应者常需在信息不完整下快速决策,增加误判风险。设定风险阈值困难源于数据有限、能力发展迅速、威胁模型不明确,人工智能失控风险难以量化,需开发具体指标作为阈值。
遏制与缓解在未遂事件中聚焦将检测风险转化为可控风险,开发者可能暂停训练或部署,应用额外技术性遏制措施,但高级别安全措施或改进对齐方法可能需要长时间实施,凸显主动响应规划必要。
已遂情景:事件严重程度取决于被突破保障措施级别及模型访问权限/资源。具体访问权限和部署环境对潜在影响和范围至关重要,但保障措施仍直接降低风险及严重性。早期预警与检测可能通过三种方式:能力的直接检测、可疑功能监控、及时发现系统造成的伤害。算力提供商可在监控数据中心可疑活动中发挥作用。政府等其他行为者也可能参与检测。理想情况下需结合访问权限、持续监控和整合多源信息。人工智能模型本身或可协助分析数据标记失控迹象,但检测有效性高度依赖情境且具不确定性。
升级响应需迅速将响应范围扩大到初始响应者之外。理想情况下,组织应内部升级让高管参与,并同时启动外部升级,若威胁关键基础设施或公共健康可启动国家应急机制,跨国事件应促进国际协调。用于协调的框架和协议应事先建立并定期演练,准备工作对建立人工智能开发者与政府间及政府内部信息流至关重要。
遏制与缓解中,遏制旨在阻止模型有害行为,缓解侧重最小化损害、恢复及解决根本原因。危害不确定性取决于模型能力、目标、获取资源及嵌入关键基础设施的程度,潜在危害包括重大财务损失、大规模网络安全事件、生物或核事件、关键基础设施破坏。遏制关键在于人类行使控制权纠正、覆盖或阻止有害输出的程度。简单情况下可部署更新模型或过滤层;极端情况下开发者或无法完全控制,缓解措施或需关停模型、限制传播(断网、关硬件、断电),但人工智能系统可能抵抗,或植入漏洞/后门作为杠杆。政府或需动用特殊权限关闭服务器、发布强制命令、协调响应。遏制缓解失败原因包括:缺乏最有效策略共识、措施为时已晚、模型不能关停。
开源和开放权重模型构成了额外挑战,可能通过实现广泛、不受监控的模型访问和修改增加失控风险,扩大攻击面。闭源与开源模型间日益扩大的能力差距可能使模型窃取情景更可能发生。对人工智能安全研究所而言,开放权重模型激增需加强风险监控和关键节点监管。缓解措施可包括增强基础设施韧性抵御人工智能驱动黑客攻击。政策制定者应跟踪开源模型发展,因为应对措施取决于其能力相对于闭源模型的演变。开源模型方面,公开权重、训练方法、数据等并允许复制整个开发过程。研究已展示撤销开放权重模型安全微调的可能性,未来更多样化行为者可能具备修改先进开放权重模型能力,导致大规模部署具危险能力模型。
三、建议与结论
为有效防范人工智能失控风险,报告提出系统性建议。检测层面,政府需联合开发者建立清晰、共享的失控定义与检测标准,由人工智能安全研究所牵头工作组达成预警共识,借鉴网络安全与生物安全经验。开发者应强化检测能力,开发可靠标准化基准,重点提升对欺骗等规避行为的识别,持续改进对抗测试技术并共享成果;部署实时监控工具追踪输出、决策与资源使用。政府须提升各利益相关方意识与信息共享效率,包括追踪计算资源、培训算力提供商、识别风险指标、推动云服务商整合实时监控标记高风险用户、优化信息流,并要求开发者报告关键指标如研发算力使用及极端能力。
升级响应层面,开发者须制定并演练明确规程,包括启动预案、通知关键方、协调资源;优化异常检测工具减少误报漏报,结合芯片级遥测与供应链监督;提前制定基于证据阈值的事件响应计划,明确拥有决策权与协调职责的“事件指挥官”角色。政府应考虑建立强制性人工智能风险报告机制,覆盖模型窃取、欺骗行为及模型逃逸等关键风险;明确网络事件报告机制在人工智能事件中的应用,授权第三方审计师与算力提供商报告高风险事态。同时,政府应为行业员工建立安全披露渠道与举报人保护机制,防范报复。人工智能安全研究所、开发者及相关政府部门需加强跨部门与国际协调,建立清晰沟通线路、保密渠道及行业应急响应团队,研究所应作为安全信息枢纽整合数据促进国际交换,推动全球应急演练并通过多边论坛建立风险应对机制。
遏制与缓解层面,开发者须优先安全,准备快速灵活的遏制措施如模型关停,计划需适应部署环境与权限,并建立与外部基础设施提供商的沟通渠道。各方应推进遏制方法研究,投资关停模型、限制能力、减害及确保人类控制的技术,探索利用人工智能自身进行遏制、沙盒及模型蒸馏。开发者、外部研究人员及人工智能安全研究所应优先安全与对齐措施,合作构建并验证安全案例,独立评估模型特性、意外能力及最坏失效模式。政府应寻求加强保护模型权重的技术,实施严格防护措施,包括带宽限制、自动化监控、加密及供应链检查,并关注人工智能模型自身的安全风险。政府与开发者需通过强化安全文化和安全设计原则改进治理,开发者应在部署前评估失效模式并由第三方审计验证合规性,持续为安全研究分配算力,可强制遵循安全设计指南并制定激励措施。
预防远胜事后恢复,拖延代价远超早期投入,需紧急建立检测与响应框架并优先安全设计,保证公私透明沟通渠道的畅通,通过激励措施培育安全优先、透明问责的文化。
(本文内容系“启元洞见”公众号原创编译,转载时请务必标明来源及作者)
参考来源:兰德公司
参考题目:Domestic frontier AI regulation, an IAEA for AI, an NPT for AI, and a US-led Allied Public-Private Partnership for AI: Four institutions for governing and developing frontier AI
参考链接:https://www.rand.org/pubs/research_reports/RRA3847-1.html
免责声明:文章内容系作者个人观点,如有任何异议,欢迎联系我们!图片来源于网络,如有侵权请联系删除。
编辑 | 南玮
审校 | 桑妮
声明:本文来自启元洞见,版权归作者所有。文章内容仅代表作者独立观点,不代表安全内参立场,转载目的在于传递更多信息。如有侵权,请联系 anquanneican@163.com。