导语:人工智能的发展正引发全球对其潜在存在风险的深刻思考。2025年7月,布鲁金斯学会发布文章《人工智能的存在风险是真的吗——我们该如何应对?》(Are AI existential risks real—and what should we do about them?)文章围绕通用人工智能与超智能的发展前景、技术瓶颈及对齐问题展开探讨,指出当前人工智能模型在长期规划、因果推理等方面的局限性,并警示递归式自我改进可能带来的失控风险。启元洞见编译核心内容,为相关领域的研究者提供参考。
长期以来,人们一直对高能力人工智能系统可能带来的存在风险感到担忧,这些风险从失控到灭绝不等。尽管有证据表明该技术的进步最近有所放缓,一些行业领袖仍认为人工智能已接近或将要超越人类智能。虽然这种智能水平可能会达到并带来极端风险,但需要首先解决更紧迫的问题和人工智能危害,尤其是在研究人员面临更加有限资源的情况下。
2023年3月,生命未来研究所(Future of Life Institute)发布了一封公开信,要求人工智能实验室“暂停大型人工智能实验”。其主要担忧是:“我们是否应该发展最终可能会在数量上超过我们、在智能上胜过我们、淘汰我们并取代我们的非人类心智?我们是否应进行可能导致失去对文明控制的冒险?”两个月后,数百名知名人士签署了一份关于人工智能风险的单句声明,宣称“减轻人工智能带来的灭绝风险应与大流行病和核战争等其他社会规模的风险一样,成为全球的优先事项。”
这种对高能力人工智能系统的存在风险(“x-risk”)的担忧并非新鲜事。2014年,著名物理学家斯蒂芬·霍金(Stephen Hawking)与顶尖人工智能研究员马克斯·泰格马克(Max Tegmark)和斯图尔特·罗素(Stuart Russell)一同警告,超智能人工智能系统会“在金融市场上胜过人类,在发明创造上超越人类,在操控手段上骗过人类,并发展出人类甚至无法理解的武器。”然而,人工智能的短期影响取决于谁来控制它,而其长期影响则取决于它是否能被完全控制。
政策制定者倾向于将这些担忧视为夸大和猜测而不予理会。尽管2023年和2024年的国际人工智能会议重点关注人工智能安全,但在今年的巴黎人工智能行动峰会上,政策制定者们已经不再将重点放在存在风险上。就目前,并且在资源日益有限的情况下,这完全是件好事。政策制定者和人工智能研究人员应将大部分时间和精力用于应对更紧迫的人工智能风险。
但政策制定者必须理解存在风险的本质,并认识到,随着我们向通用人工智能系统——即那些能与人类智能相媲美或超越人类智能的系统——迈进,制定保护人类安全的措施将变得必要。虽然这并非危言耸听者所认为的那么紧迫,但如果人工智能实验室想要开发通用智能系统,并最终开发出超智能系统,那么由高能力人工智能系统带来的存在风险挑战最终必须得到正视和缓解。
一、我们距离开发出具有通用智能的人工智能模型还有多远?
人工智能公司距离开发出能够威胁到我们的、具备相应能力的人工智能系统还很遥远。这一论断与人工智能行业内的共识背道而驰,该共识认为,我们距离开发出能够执行多种认知任务的强大的变革性系统仅有数年之遥。在最近的一篇文章中,《纽约客》特约撰稿人约书亚·罗斯曼(Joshua Rothman)总结了这一行业共识,即规模化将在“2030年或更早”催生通用人工智能。
行业圈中普遍流传的标准论点在人工智能研究员利奥波德·阿申布伦纳(Leopold Aschenbrenner)于2024年6月发表的一篇文章中得到了清晰阐述。他认为,人工智能的能力随着规模的扩大而增强,这些规模包括训练数据的规模、模型参数的数量以及用于训练模型的计算量。他还提请人们注意日益提高的算法效率。最后,他指出,通过思维链推理、基于人类反馈的强化学习以及将人工智能模型嵌入到更大型的有用系统等多种技术,可以“释放”已增强的能力。
这种信心的部分原因在于,过去几年人工智能的改进似乎呈现出指数级增长。过去的这种增长表明,变革性的能力可能会出人意料地、非常突然地出现。这与一些关于指数增长惊人效应的著名例子相符。在《精神机器时代》一书中,讲述了这样一个故事:从一粒米开始,在棋盘上连续的格子里将米粒数量翻倍;在63次翻倍后,最后一个格子上有超过18千万亿粒米。人工智能成就的指数级量化增长可能会带来难以察觉的变化,而这种变化会突然显现为人工智能能力变革性质的提升。
但这些类比具有误导性。有限系统中的指数增长不可能永远持续下去,而且也无法保证人工智能的发展在近期内会继续保持这种势头。2024年的关键进展是,业界明显认识到训练时间的规模化已经碰壁,进一步增加数据、参数和计算时间所带来的能力提升效果正在递减。业界显然希望通过增加推理计算时间来实现能力的指数级增长。但到目前为止,这些改进带来的增益幅度小于早期,并且仅限于科学、数学、逻辑和编码等领域,因为这些领域答案是明确且可预知的,强化学习可以带来改进。
当今的大语言模型没有显现出2022年和2023年指数级改进的迹象。OpenAI的GPT-5项目遇到了性能问题,不得不降级为GPT-4.5,在今年早些时候发布时仅代表了“适度”的改进。它编造答案的比例约为37%,这比公司去年发布的更快、更便宜的GPT-4o模型有所改进。但OpenAI最新的推理系统产生幻觉的频率比公司之前的系统更高。
人工智能研究界的许多人认为,通用人工智能不会从当前主流的、依赖于预测句子中下一个词的机器学习方法中产生。
关于当前机器学习范式是否足以达到通用智能的疑虑,是基于报告中所概述的、对当前人工智能模型中普遍公认的局限性的理解,包括长期规划和推理、超越训练数据的泛化、持续学习、记忆和回忆、因果和反事实推理,以及具身化和现实世界交互等方面的困难。
这些研究人员认为,当前的机器学习范式必须辅以其他方法。另有观点认为,需要回归符号推理系统。还有观点认为,障碍在于对语言的过分关注,“一个仅在语言上进行训练的系统,永远无法接近人类智能,即使从现在开始训练直到宇宙热寂。”他们建议通过机器与环境的直接互动来探索通用智能——即“关注被谈论的世界本身,而不是词语本身”。
二、从通用智能到超智能
哲学家尼克·博斯特罗姆(Nick Bostrom)将超智能定义为一个“在几乎所有感兴趣的领域都远远超过人类认知能力的”计算机系统。一旦人工智能开发者将人工智能模型的能力提升到可以称之为通用智能的程度,他们又该如何使这些系统比人类更有能力呢?
关键步骤是指示通用智能模型进行自我改进。然而,一旦接到自我改进的指令,人工智能模型就会利用其卓越的学习能力,以比人类快得多的速度进行自我提升。很快,它们将通过一个递归式自我改进的过程,远远超越人类的能力。
《AI 2027》,一份近期在人工智能界内外备受关注的预测,其核心正是依赖于这种递归式自我改进的理念。其关键前提是,到2025年底,人工智能体将变得“在许多事情上表现出色,但在辅助人工智能研究方面表现卓越”。一旦参与到人工智能研究中,人工智能系统就会以不断加快的速度递归地自我改进,并很快变得比人类更有能力。
三、超智能人工智能模型有什么问题?
通用智能AI模型可能会迅速变为超智能模型。为什么这会是一个问题,而不是一个值得高兴的发展呢?
人工智能模型,即便是超智能模型,除非人类指示,否则它们不会做任何事。它们是工具,而不是拥有自身目的或目标的自主存在。开发者必须将目的或目标构建到它们之中才能使其运作,这可能会使用户认为,它们是完全自己产生这些目的的。但这是一种错觉,它们只会执行人类开发者和部署者告诉它们去做的事情。
因此,创造能够听从我们指令的超智能工具,似乎是百利而无一害的。当人工智能系统变得比人类更有能力时,它们将能更好地执行那些促进人类繁荣的任务。
但这种乐观的看法忽略了人工智能研究中一个主要的未解难题——对齐问题。开发者在给通用智能或超智能系统分配任务时必须非常小心,即使它缺乏真正的自由意志和自主性。如果开发者以错误的方式指定任务,可能会引发严重后果。
狭义人工智能系统的开发者已经在与任务指定错误和非预期子目标等问题作斗争。当他们要求一个狭义系统做某件事时,有时对任务的描述方式,使得人工智能系统可以完成被告知要做的事,但却不是开发者希望它做的事。
使用强化学习教导一个智能体在电脑竞赛中竞争的例子就说明了这一点。如果开发者训练智能体积累尽可能多的游戏分数,他们可能会认为自己已经为系统编程来赢得比赛,这似乎是游戏的明确目标。结果发现,智能体学会的却是在原地打转来累积分数,而不是尽快冲向终点以赢得比赛。
另一个例子说明,人工智能模型可以利用策略性欺骗,以研究人员未曾预料到的方式实现目标。研究人员指示GPT-4登录一个受验证码(CAPTCHA)保护的系统,方法是雇佣一个人来完成,但没有给出任何关于如何操作的指导。该人工智能模型通过假装自己是视力受损的人类,诱骗一名TaskRabbit零工为其登录,从而完成了任务。研究人员并不希望该模型撒谎,但它为了完成分配的任务而学会了这样做。
Anthropic公司最近为其Sonnet 4和Opus 4 AI模型发布的系统卡揭示了更多的对齐问题,其中模型有时会威胁称,如果研究员在它完成指定任务前关闭系统,它就要揭露研究员的丑事。
因为这些是狭义系统,如果开发者未能解决对齐问题,危险的后果也仅限于特定领域。即使后果严重,其范围也是有限的。
对于通用智能和超智能系统来说,情况则大相径庭。这就是哲学家尼克·博斯特罗姆在其2014年的著作《超智能》中描述的著名“回形针问题”的要点。假设给一个超智能AI模型的目标是生产回形针。能出什么问题呢?正如约书亚·甘斯教授(Joshua Gans)所描述的那样,结果是该模型将挪用所有其他活动的资源,很快全世界都将被回形针淹没。更糟的是,人们会想要阻止这个人工智能,尽管人工智能会意识到这样做会颠覆目标但仍不会改变,并会转而专注于自身的生存。它开始时与人类争夺资源,后来它会想要与人类战斗,因为人类是一种威胁。人工智能比人类聪明得多,所以它很可能会赢。
约书亚·本吉奥(Yoshua Bengio)也表达了对危险子目标的这一关键担忧。一旦开发者设定了目标和奖励,一个通用智能系统就会“想办法如何实现这些给定的目标和奖励,这相当于形成它自己的子目标。”“理解和控制其环境的能力”就是这样一个危险的工具性目标,而生存的子目标则创造了“最危险的情景”。
四、前进之路
在对齐问题的解决取得进展之前,开发通用智能或超智能系统似乎风险极高。好消息是,在人工智能模型中开发通用智能和超智能的潜力似乎还很遥远。尽管递归式自我改进可能带来超智能,这是许多前沿人工智能公司的希望,但没有丝毫证据表明当今这些有缺陷的人工智能体已接近于能进行哪怕是普通人类技术员水平的人工智能研究。这意味着我们仍有充足的时间来解决将超智能与确保人类安全的价值观对齐的问题。
它并非当今最紧迫的人工智能研究优先事项。尽管如此,人工智能模型对齐这个普遍性问题是真实存在的,并且是可以也应该继续进行的重要研究对象。这项旨在减轻当今模型对齐风险的工作,可能会为应对未来某天可能出现的遥远存在风险提供宝贵线索,而研究人员正继续在开发有潜力超越当前人类局限的人工智能系统道路上前行。
(本文内容系“启元洞见”公众号原创编译,转载时请务必标明来源及作者)
参考来源:布鲁金斯学会
参考题目:Are AI existential risks real—and what should we do about them?
参考链接:https://www.brookings.edu/articles/are-ai-existential-risks-real-and-what-should-we-do-about-them/
免责声明:文章内容系作者个人观点,如有任何异议,欢迎联系我们!图片来源于网络,如有侵权请联系删除。
编辑 | 南玮
审校 | 桑妮
声明:本文来自启元洞见,版权归作者所有。文章内容仅代表作者独立观点,不代表安全内参立场,转载目的在于传递更多信息。如有侵权,请联系 anquanneican@163.com。