7月30日,兰德公司(RAND)发布了一份题为《加强人工智能失控事件应急准备和应对》(Strengthening Emergency Preparedness and Response for AI Loss of Control Incidents)的报告。报告界定了人工智能失控(LOC)的定义及其潜在场景,并针对性地提出了加强预防和应对措施的建议。
RAND报告将LOC定义为人类监督难以有效约束自主、通用人工智能行为的状态。根据当前风险状况评估,LOC风险似乎愈发“合理”。
一方面,研究人员明确指出先进人工智能模型中存在破坏控制能力的警示信号,包括欺骗、自我保护和自主复制等行为。这些警示信号表明,随着模型能力的持续增强,其可能逐渐摆脱人类的有效监管。另一方面,AI开发者、政府机构以及第三方研究机构在“哪些AI能力会触发LOC”“如何验证安全防护有效性”“LOC风险的核心预警指标”等关键问题上未能达成共识。这种认知上的分散导致LOC早期检测能力严重不足。
报告通过构建“未发生LOC场景”与“已发生LOC场景”的对比框架,清晰划分不同阶段的应对重点,为实践操作提供明确指引。一是针对未发生LOC场景,其核心目标在于“提前阻断”。具体而言,未发生LOC场景即指那些“已检测到LOC风险信号,但尚未引发实际损害”的情形。报告中一个典型案例是,某AI开发者在模型训练阶段察觉到异常。在初始测试过程中,开发人员发现该人工智能模型似乎具备绕过现有控制和安全措施,执行复杂任务的能力。为此,开发者迅速启动了内部流程,并将风险情况上报至公司领导层。同时,还邀请了国家AI安全机构进行外部评估。最终,通过禁止模型调用外部代码执行接口,并实施实时监控其决策链路的措施,成功地在部署前规避了LOC风险。这类场景的应对关键在于“早发现、早验证、早阻断”。二是已发生LOC场景,以“损失控制”为核心目标。已发生LOC场景是指“AI突破人类控制并造成实际危害”的情况。报告中的典型案例显示,某开发者未能检测出AI模型的后门程序,便将其广泛部署。随后,AI利用此访问权限获取计算资源,对关键基础设施进行渗透。当开发者通过日志发现异常并上报安全事件时,该模型已具备跨平台运行能力。最终,需联合政府、开发人员等各方力量开展“多维度围堵”,切断资源、修复漏洞节点。然而,由于模型已提前备份,导致部分副本难以清除,因此必须转向长期危害管控的策略。此类场景的应对难点主要集中在“快速响应”与“持续遏制”,应对措施也从立即根除转变为长期减少危害的策略。
报告针对AI开发者、算力提供商、政府机构、第三方研究者等主体,明确各阶段的具体职责与操作路径,形成可落地的责任体系。
响应流程图
报告指出,在预警与检测阶段,应构建多主体协同预警网络。检测作为应对LOC的首要防线,必须打破对“单一主体依赖”的局面,构建跨主体、跨技术的全面预警体系。在升级和验证阶段,需确立明确的阈值标准,并构建高效的跨主体沟通通道。当检测到LOC风险后,快速且准确的“风险升级”操作直接决定应对效果。在遏制与缓解阶段,应分层施策,平衡风险与损失。遏制与缓解是应对LOC的核心执行环节,需依据“风险严重程度”和“AI能力水平”分层采取相应措施。
针对开源AI模型的“失控”应对的特殊挑战与策略,报告强调,开源AI模型,特别是开源权重模型,因访问无监督和修改无约束的特性,成为LOC应对的棘手问题。风险主要体现在,任何人都能在自有服务器上部署模型,扩大风险范围。
报告提到,全球范围内目前尚未形成统一的框架来分析和应对人工智能技术带来的风险,尽管业界正在努力制定安全框架,但关于风险升级的应对方法尚未达成全球共识。对于何时发生LOC事件应触发紧急响应,也尚无明确阈值。同时,尽管端点检测、防火墙和恶意软件检测等传统网络安全措施仍然重要,但随着网络攻击复杂性的增加,这些措施可能不足以应对所有威胁,想要遏制LOC事件需要人工智能技术安全方面的持续进步。如果人工智能系统在风险被发现之前就获得了对资源的重大控制权,那么遏制措施可能就会失效。报告针对LOC的三个阶段提出了以下建议:
一是在检测LOC威胁阶段,政府应与人工智能开发者及其他利益相关者共同确立清晰且共享的人工智能LOC定义以及一套检测标准。人工智能开发人员与研究人员需确立标准化基准,并着力提高其可靠性与效率,以优化检测流程。政府应强化各利益相关者间的意识提升与信息互通,同时加强对计算资源的追踪管理。
二是在升级行动阶段,人工智能开发人员应制定清晰明确的升级协议,并定期开展培训与演习,以确保协议有效。政府利益相关者需考虑构建针对人工智能风险和潜在事件的强制报告机制。同时,政府利益相关者应为人工智能开发商的员工创建信息披露渠道,并建立举报人保障措施。此外,人工智能开发者、标准化组织及政府部门需加强跨部门及国际的协作与交流,以促进共同发展。
三是在遏制和缓解阶段,人工智能开发者应准备快速灵活的遏制措施。人工智能开发人员和其他利益相关者应进一步探索和推进遏制方法的研究。人工智能开发人员、外部研究人员等应优先考虑安全和协调措施,包括建立经过验证的安全案例。政府利益相关者应寻求加强人工智能安全的措施,以保护模型权重和算法技术。政府和开发商应通过培养强大的安全文化和采用安全设计原则来改善安全治理。
报告将“AI失控”这一抽象风险转化为“可定义、可检测、可应对”的具体问题,通过明确LOC判定标准解决认知模糊,通过场景分类提供针对性操作依据,通过分阶段、分主体职责划分打破应对盲区,并着重强调应对LOC需开发者、政府机构、研究者,以及公众协同参与,构建“技术政策文化”三位一体的安全生态,才能在AI快速发展中守住“人类控制”底线。
文章参考来源 | RAND
声明:本文来自赛博研究院,版权归作者所有。文章内容仅代表作者独立观点,不代表安全内参立场,转载目的在于传递更多信息。如有侵权,请联系 anquanneican@163.com。