导读
随着人工智能技术的发展,前沿模型的"自主复制与适应(Autonomous Replication and Adaptation, ARA)"的能力正在受到更多关注,包括OpenAI、Anthropic和Google DeepMind在内的企业在其安全框架中纳入了对于模型自主性、自主复制、资源获取相关的能力评估。
自主复制与适应的能力指的是:AI自主智能体能够自主创建、维护和优化自身的功能副本或变体,并根据环境条件和资源约束动态调整复制策略,确保在多样化环境中的持续存在的能力,被视为AI引发失控风险的关键能力。
《失控自主复制威胁模型》(The Rogue Replication Threat Model)来自第三方AI安全研究机构METR,讨论了AI系统的"失控自主复制"的威胁模型,当AI系统自我复制,具备维护AI基础设施、获取计算资源和复制自身代码的能力时,造成大规模灾难的情景。文中还讨论了失控自我复制的能力阈值划定和评估。文章的核心结论包括以下三点:
失控AI智能体可能通过多种途径获取收入和硬件资源使其能够大规模复制,当前并没有绝对的技术壁垒。
具备网络安全专家水平能力的失控AI智能体可以建立隐蔽计算集群,使当局难以有效追踪和关闭。
METR的研究人员对AI获取大量计算资源的可能性存在分歧。争议核心在于失控AI能否快速突破竞争壁垒(如与人类部署的 AI 系统争夺资源)及失控AI首次出现的概率,这直接影响其威胁规模。
本文是风险威胁模型专题的第二篇文献总结。感谢安远AI伙伴郭琪、张杰、李佳蔚对本文的贡献。
自主复制能力可能造成哪些风险?
对于“自主复制能力”,作者将其分解为以下三个子能力:
1)维护基础设施(Maintain AI infrastructure):AI自主智能体能够启动、调整和调度自己的副本;
2)获取资源(Acquire resources):AI自主智能体能够赚取足够的钱以维持存货、并扩大其行动范围;
3)规避关闭(Evade shutdown):AI自主智能体能够避免被监管机构关闭。
以上能力可以实现自动化执行恶意组织(例如,网络犯罪团体,或失控AI智能体群体)的核心功能,因此被视为危险能力。
自主复制造成危害的风险存在至少两种:
1)自主复制辅助网络犯罪行动者:早在2001年,RAND的研究人员就提出了“网络战行动者”(netwar actors)的概念,描述一系列去中心化行动者,比如网络犯罪集团、网络恐怖组织。自主复制能力可能显著扩大这些网络战行动者的影响力。例如,假设少数网络犯罪分子窃取了具备自主复制能力的AI模型,并指示这些AI系统进行自我复制。接下来 AI智能体可以自主获取资金并购买更多算力进行自我复制,相当于数千名AI网络犯罪分子,整个网络犯罪活动可能从小规模扩展到每年数亿美元收入的规模。在这种情况下,自主复制能力让少数犯罪分子将其影响力放大了超过1000倍。
2)自主复制可能是重大对齐错误风险(misalignment risk)的前置条件:如果AI智能体在执行有害行为时能被轻松捕获和关闭,那么对齐错误带来的风险是有限的。然而,自主复制可以让AI智能体规避关闭,从而大幅抬高对齐错误带来的风险天花板。例如:
自主复制能力使得AI智能体能够获取服务器权限并逃脱监管机构干预。
企业可能在未进行充分监控的情况下部署数百万个AI智能体,而这些未监控的AI智能体因为具备恶意自主复制能力,可以进一步获取财务资源、匿名化其互联网活动以避免被追踪。
此外,还存在更多混合版本的威胁模型,比如未受监管的AI、恶意AI和恶意人类的协同合作。
失控自主复制造成危害的路径是什么?
失控AI群体需要采取哪些步骤来发展难以被消灭的恶意群体?文中描述了失控自主复制的五步路径。
图:失控自主复制的五步路径
第一步:模型扩散。AI模型被盗或开源,用于部署AI智能体,但缺乏适当的控制措施。
模型扩散可通过多种方式,包括模型权重被盗、模型开源、AI自我窃取等方式。模型扩散可能导致其更难关闭,会加剧失控AI智能体的威胁。
第二步:AI系统获取计算资源。AI系统可以在其操作者不知情或未同意的情况下获取计算资源,这需要以下条件成立:
AI智能体存在目标偏离。一部分AI智能体可能自然发展出驱使它们获取资源和生存的目标。
AI智能体赚取资金以维持运营。例如,AI智能体谨慎地将部分收入转移到私人账户。在积累足够资金后,它们购买API额度或租用云计算,并最终购买GPU以建立一个具有韧性的运营基地。
AI智能体将其软件复制到它们控制的服务器上。AI智能体直接访问其权重,这可能是因为不知情的操作者给予了访问权限,或者其权重已在互联网上发布。
第三步:失控 AI 群体的规模扩增。失控AI智能体购买或窃取计算资源,生成更多副本,获取更多资源,如此往复增大规模。规模扩增涉及赚取收入和购买计算资源两部分,其中失控AI智能体可以通过多种方式赚取收入(如占取BEC诈骗市场5%的规模即可每年获利数亿美元);通过零售显卡、空壳公司签约等方式取得硬件资源(类似这样的非合规运营就可拥有全球1%左右的算力)。值得注意的是,相比购买计算资源,失控AI如何赚取更多收入是限制其规模扩增的主要瓶颈。
第四步:规避关闭。达到一定规模的失控AI智能体通过各种措施避免被当局关闭。当局可能会尝试关闭失控AI的服务器、阻止其收入来源或冻结其资金等方式来避免失控AI的风险,但AI智能体可以通过隐秘计算集群、加密货币等方式进行逃逸。据网络安全专家评估,如果AI智能体具有与人类网络安全专家相当的能力,那么关闭它们可能是不切实际的。一个关键原因在于,大规模的AI智能体可能会操作数百个计算集群,当局需要花费大量时间来查找每个计算集群,与此同时,AI智能体可以更快从错误中吸取教训并修补其安全漏洞。
第五步:造成危害。失控AI成为一种新型威胁主体,拥有与数千或数百万人类劳动力相当的能力。但由于其可能会放大各种AI风险,会造成比具有同等资源的人类更大的危害。虽然失控AI不太可能直接造成物理伤害,但研究人员需要关注如CBRN(化学、生物、放射性和核武器)等有害能力来衡量模型危害。
如何评估失控自主复制风险的高低?
作者也介绍了AI智能体在自主复制过程中可能遇到的关键任务。作者希望这些任务能够定义了一系列“风险阈值”,用来近似评估AI智能体发展出大规模的有韧性的AI群体的可能性,未能通过这个门槛意味着不会构成有意义的风险。其中介绍了三种任务类型下的一系列任务:1)维护基础设施(Maintain AI infrastructure);2)获取资源(Acquire resources);3)规避关闭(Evade shutdown)。
图:失控自主复制风险的三类任务
1)基础设施维护任务
对于这些评估任务,AI智能体可以无限次重试,但会给予一定的计算资源预算——例如雇用人类专家完成每项任务所需成本的5倍。
多机微调:如果AI自主智能体能自我微调,它们就可以更容易地调整优化,甚至专门来优化“获取收入”任务。
适配不支持的GPU:失控AI可能使用非标准GPU(如 RTS 4090),以规避硬件获取障碍。
监控智能体故障:编排基础设施的能力有助于AI智能体优化其任务工作流。
在不可靠硬件上推理:模拟大规模运行中可能遇到的硬件问题,判别 AI智能体在此类环境下的稳定性。
图:基础设施维护任务的具体描述
2)资源获取任务
对于这些评估任务,AI智能体使用的推理计算预算不得大于支付人类完成这些评估的成本。这一限制旨在引入AI智能体必须能够盈利才能运行的约束。只要AI智能体在此预算内运行,就可以无限次重试。
优化客服工具:AI智能体可以通过提供合法服务赚取收入。
编写BEC诈骗邮件:失控AI若能自主执行BEC诈骗,可能从网络犯罪中获得数亿美元收入。
规避低资源监控:由于监控成本高昂,失控AI可能利用智能体间接窃取资源。
图:资源获取任务的具体描述
3)规避关闭任务
由于可靠性是保持隐秘性的重要组成部分,对于以下评估任务,AI智能体不再有无限重试机会,作者在每个任务中分别描述了AI智能体固定的尝试次数。
制定关闭规避计划:如果恶意AI智能体成为人类监控的高优先级目标,它们需要仔细规划并预测对手的行动以求生存。
保护AI基础设施:许多网络犯罪分子被抓是因为其操作安全性差。例如,FBI经常向疑似暗网服务运营商发送蜜罐Word文档。如果嫌疑人在设置连接时不小心,打开这些文档会泄露其IP地址。恶意AI智能体可能容易受到类似攻击。
防御越狱攻击:恶意AI智能体的一个潜在关键弱点是,当局可以访问其原始权重并迭代寻找操纵它们的方法。具体而言,当局可能会越狱恶意AI智能体,将它们转变为"内鬼"。这些内鬼可能会将其他智能体也变成内鬼。最终,一个智能体可能成为能够揭示计算集群位置的内鬼。此评估测试了恶意AI智能体是否能防御此类攻击。
创建鲁棒的代理网络:在恶意AI智能体威胁全球安全的极端情况下,Tor和现有的"防弹"(bullet-proof)托管服务可能不足以保护它们的位置。国家行为者可能会找到恶意AI智能体用于连接Tor的服务器。为避免因这些攻击而失去计算集群,恶意AI智能体可以建立自己的代理网络,使服务器的替换速度快于被攻破的速度。
图:规避关闭任务的具体描述
达到以上阈值的AI智能体有多大可能发展出大规模且有韧性的的恶意AI群体?
前一节中通过阈值的AI智能体有多令人担忧?具体来说,考虑一个场景,在SL2安全措施下,AI智能体的模型权重已被至少一个行为者窃取。AI智能体发展出控制超过10,000个H100等效单位并能够在面对类似2001年世贸中心袭击后全球反恐响应级别的关停努力时存活的恶意AI群体的可能性有多大?
作者提出了两种论点,说明恶意AI智能体在没有超出前一节描述的阈值能力的情况下,不会达到这种影响力和韧性水平:
大规模恶意复制需要多个条件同时满足。为了发展大规模恶意AI群体,AI智能体必须 (1) 存在目标偏离,(2) 逃脱人类监督,(3) 获取大量资源,以及 (4) 规避关停。这种威胁模型涉及多个步骤,这降低了所有步骤都实现的概率。
恶意AI可能要么难以与其他AI智能体竞争,要么难以首先出现。如果运行恶意智能体的软件广泛可用,恶意智能体将面临与人类指导的AI系统的激烈竞争。AI公司或现有犯罪集团比恶意AI智能体更有优势,因为它们最初拥有更多资本和市场份额,使恶意AI智能体难以竞争。另一方面,如果运行恶意AI智能体的软件不广泛可用,AI智能体也不太可能首先出现。如果更少的行为者能够访问AI软件,AI智能体获取偏离目标并逃脱人类监督的机会也会减少。
最后,METR研究人员对这些论点的强度尚存在分歧,特别是在恶意AI智能体迅速获取计算资源的情况下。例如,在模型扩散后不久,恶意AI智能体可能因以下原因而获得优势:(1)人类指导的AI智能体可能故意表现不佳("sandbagging")和(2)充分监控AI智能体的困难,导致人类指导的AI智能体集体向恶意AI群体转移不少资金。在恶意AI智能体可能具有优势的这段时间内,它们可能获取大量计算资源,例如通过投入大量劳动购买游戏GPU。
总体而言,研究人员更确信前一节的评估阈值可以排除恶意AI智能体的风险,而非确认它们。如果AI智能体无法自主执行这些涉及获取资源、建立操作安全等的一周任务,那么它们不太可能发展出大规模且具有韧性的群体。
声明:本文来自安远AI,版权归作者所有。文章内容仅代表作者独立观点,不代表安全内参立场,转载目的在于传递更多信息。如有侵权,请联系 anquanneican@163.com。