导语:2025年1月,英国商业贸易部网站发布由96位国际人工智能专家撰写的《先进人工智能安全国际科学报告》(International scientific report on the safety of advanced AI),报告旨在为应对先进人工智能风险提供科学依据,促进国际社会对其的理解和管理。启元洞见编译报告主要内容,旨在为读者了解人工智能的安全发展提供参考。

摘要

本报告总结了通用人工智能安全性的科学证据,旨在帮助建立国际社会对先进人工智能风险及其缓解方法的共同理解。为实现这一目标,本报告重点关注通用人工智能(即可以执行各种任务的人工智能),因为此类人工智能近年来发展尤为迅速,并已被科技公司广泛应用于各种消费和商业用途。本报告汇总了科学界当前对通用人工智能的理解,重点关注理解和风险管控。

报告的三个主要部分总结了三个核心问题的科学证据:通用人工智能能做什么?通用人工智能存在哪些风险?以及针对这些风险有哪些缓解技术?

一、通用人工智能的能力:通用人工智能现在和将来的用途?

人工智能用途是衡量其所带来的诸多风险的关键因素,并且根据许多指标衡量来看,通用人工智能的能力一直在迅速提升。五年前,领先的通用人工智能语言模型几乎无法生成连贯的文本段落。如今,一些通用人工智能模型可以就广泛的话题进行对话、编写计算机程序或根据描述生成逼真的短视频。然而,可靠地估计和描述通用人工智能的能力在技术上颇具挑战性。

近年来,人工智能开发者通过“扩展”(Scaling)迅速提升了通用人工智能的能力。他们不断增加用于训练新模型的资源(此行为通常被称为“扩展”)并改进现有方法以更有效地利用此类资源。例如,根据最近的估测,最先进的人工智能模型用于训练的计算资源(“算力”)每年增加约4倍,训练数据集大小每年增加约2.5倍。

通用人工智能未来的发展速度对于管控新风险具有重大影响,但专家们对未来数月乃至数年的预期仍存在分歧。专家们对通用人工智能能力的发展速度可能缓慢、迅速或极其迅速持有不同的意见。

专家们对于未来进步的速度存在分歧,原因在于他们对于进一步“扩展”的前景看法不一。而各公司正在探索一种新的扩展类型,这或许能进一步提升能力。尽管扩展通常可以克服以前系统的局限性,但专家们对于其解决当今系统剩余局限性的潜力存在分歧,例如在物理世界中行动的不可靠性以及在计算机上执行复杂任务的能力不足。近几个月来,一种新型的扩展类型展现出进一步提升其能力的潜力:人工智能公司不再仅仅关注用于训练模型的资源扩展,他们对还越来越对“推理扩展”(inferencescaling)感兴趣——即让已经训练过的模型使用更多的计算来解决给定的问题,例如改进自身的解决方案,或者编写所谓的“思维链”,将问题分解为更简单的步骤。

有数家开发通用人工智能的领先公司正在押注于“扩展”以持续推动性能提升。如果最近的趋势继续下去,到2026年底,部分通用人工智能模型将使用比2023年计算量最大的模型大约100倍的训练算力进行训练,到2030年将增长到1万倍,同时算法也将实现以更少的可用计算量获得更强的能力。除了训练资源可能的这种规模增长外,诸如推理规模扩大以及利用模型生成训练数据等近期趋势,可能意味着总体上会使用更多的计算量。然而,进一步快速增加数据和计算还存在一些潜在瓶颈,例如数据、人工智能芯片、资本和本地能源容量的可及性。开发通用人工智能的公司正在努力克服此类潜在的瓶颈。

二、风险:通用人工智能有哪些风险?

本报告将通用人工智能风险分为三类:恶意使用风险、故障风险和系统风险。每个类别都包含已经出现的风险以及未来数年可能出现的风险。

(一)恶意使用的风险

恶意行为者可以使用通用人工智能对个人、组织或社会造成伤害。每个类别都包含已经出现的风险以及未来几年可能出现的风险。恶意使用的形式包括:

1.通过发布虚假内容对个人造成伤害

目前,恶意行为者能够使用通用人工智能来生成有针对性地伤害个人的虚假内容。这些恶意用途包括非经同意的“深度伪造”的色情内容和人工智能生成的儿童性虐待材料、通过声音模仿进行金融欺诈、敲诈勒索、破坏个人和职业声誉以及心理虐待。然而,尽管有关人工智能生成的虚假内容造成危害的事件报告屡见不鲜,但仍然缺乏有关此类事件发生频率的可靠统计数据。

2.操纵公众舆论

通用人工智能使得大规模生成具有说服力的内容变得更加容易。那些试图操纵公众舆论的人,例如意图左右政治结果的行为者,恰可以借助于此。然而,关于此类行为的普遍性和有效性的证据仍然有限。虽然诸如内容水印之类的技术对策有用,但通常会被稍懂技术的恶意行为者规避。

3.网络攻击

借助通用人工智能,不同技能水平的恶意行为者可更轻松或更快地发动网络攻击。当前的人工智能系统已经展现出在低复杂度和中等复杂度网络安全任务方面的能力,有国家支持的攻击者正在积极利用人工智能来侦察目标系统。新的研究证实,通用人工智能在与网络攻击相关的方面的能力正在显著提升,但目前尚不清楚这是否会影响攻击者与防御者之间的平衡。

4.生物和化学攻击

近期通用人工智能系统已展现出一定的能力,能够为复制已知生物和化学武器提供操作说明和故障排除指导,并可用于设计新型有毒化合物。在测试生成生物武器生产计划能力的新实验中,通用人工智能系统有时表现得比的人类专家还要出色。对此,一家人工智能公司将其最佳模型的生物风险评估从“低”提升到了“中”。不过,要在现实世界中开发此类武器仍需大量额外资源和专业知识。由于许多相关研究属于机密,对生物和化学风险进行全面评测估颇具难度。

(二)故障风险

通用人工智能也可能造成意外危害。即使用户无意造成伤害,通用人工智能的故障也可能会造成严重风险。此类故障包括:

1. 可靠性问题

当前的通用人工智能可能不可靠,从而可能造成危害。例如,如果用户向通用人工智能系统咨询医疗或法律建议,系统可能会生成包含错误信息的回答。用户常常意识不到人工智能产品的局限性,例如由于有限的“人工智能素养”、广告误导或沟通不畅。已知有大量因可靠性问题而造成危害的案例,但关于此类问题在不同领域的普遍程度,目前仍缺乏确切的证据。

2. 偏见

通用人工智能系统或可放大社会和政治偏见,造成危害。它们常常在种族、性别、文化、年龄、残障、政治观点或人类身份的其他方面表现出偏见。这可能导致歧视性结果,资源分配不均、强化刻板印象以及对代表性不足的群体或观点的系统性忽视。虽然在通用人工智能系统中减轻偏见和歧视的技术方法正在取得进展,但这些方法在偏见缓解与准确性、隐私等其他目标之间存在权衡,同时还面临其他挑战。

3. 失控

所谓“失控”场景,指的是未来可能出现的一种假设性情况,即一个或多个通用人工智能系统开始脱离任何人的控制,且没有明确的重新掌控途径。目前普遍认为,现有的通用人工智能尚不具备造成这种风险的能力。然而,对于未来几年内出现失控的可能性,专家意见差异很大:一些专家认为失控不太可能发生,另一些专家则认为失控有可能发生,还有专家认为这是一种可能性适中但潜在危害严重的风险,因此值得予以关注。相关的实证研究和数学研究正在逐步推进这些讨论。

(三)系统性风险

除了单个模型的能力直接带来的风险之外,通用人工智能的广泛部署还会带来一些更广泛的系统性风险。系统性风险的示例包括潜在的劳动力市场影响、隐私风险和环境影响。

1. 劳动力市场风险

通用人工智能,特别是如果其继续快速发展,有可能使非常广泛的任务实现自动化,这可能会对劳动力市场产生重大影响。这意味着许多人可能会失去目前的工作。然而,许多经济学家预计,潜在的就业岗位流失可能会被部分抵消,甚至有可能完全抵消,因为新的工作岗位会不断涌现,而且非自动化行业的需求也会增加。

2. 全球人工智能研发鸿沟

目前,通用人工智能的研发集中在少数西方国家和中国。这种“人工智能鸿沟”有可能使世界上许多国家对这一小部分国家产生更大的依赖。一些专家还预计人工智能鸿沟将加剧全球不平等。造成这种不均衡的原因有很多,其中一些并非人工智能所独有。然而,很大程度上,这是由于获取开发通用人工智能所需的极其昂贵的计算能力方面存在差异:大多数中低收入国家拥有的计算能力远远低于高收入国家。

3. 市场集中度和单点故障

目前,少数几家公司主宰着通用人工智能市场。这种市场集中度可能使社会更容易受到多种系统性风险的影响。例如,如果金融或医疗保健等关键领域的组织都依赖少数通用人工智能系统,那么此类系统中的漏洞或缺陷可能会导致大规模的同步故障和中断。

4. 环境风险

通用人工智能开发和部署中计算的用量不断增长,迅速提高了构建和运行所需计算基础设施所消耗的能源、水和原材料的数量。尽管技术上的进步使计算得到了更有效的利用,但增长趋势并没有明显放缓的迹象。通用人工智能还有许多应用,既可以促进可持续发展,也可以损害可持续发展的成果。

5. 隐私风险

通用人工智能可能导致或加剧侵犯用户隐私的行为。例如,训练数据中的敏感信息可能在用户与系统交互时无意中泄露。此外,当用户与系统共享敏感信息时,这些信息也可能会泄露。但通用人工智能也可能为故意侵犯隐私提供便利,例如,恶意行为者使用人工智能从大量数据中推断出特定个人的敏感信息。然而,到目前为止,研究人员尚未发现与通用人工智能相关的大规模隐私侵犯的证据。

6. 版权侵权

通用人工智能既从创意表达作品中学习,又生成此类作品,这给传统的数据同意、补偿和控制体系带来了挑战。数据收集和内容生成可能涉及多种数据权利法,这些法律因司法管辖区而异。鉴于数据收集时间的法律不确定性,人工智能公司对其使用的数据披露的信息越来越少。这种不透明性使得第三方对人工智能安全性的研究更加困难。

三、风险管理:有哪些技术可以管理通用人工智能带来的风险?

风险管理——识别和评估风险,然后减轻和监控风险——在通用人工智能的背景下颇具难度。尽管在许多其他领域,风险管理也一直极具挑战性,但通用人工智能的某些特性似乎带来了独特的难题。

通用人工智能的若干技术特性使得该领域的风险管理尤为困难。其中包括但不限于:

通用人工智能系统的可能用途和使用环境范围异常广泛。例如,同一系统可用于提供医疗建议、分析计算机代码中的漏洞以及生成照片。这增加了全面预测相关用例、识别风险或测试系统在相关现实情况下的行为方式的难度。

开发人员对于其通用人工智能模型的运作原理仍知之甚少。这种理解上的缺失使得预测行为问题以及在观察到已知问题后对其进行解释和解决都变得更加困难。理解之所以难以实现,主要是因为通用人工智能模型并非以传统方式编程。这些模型是通过训练获得的:人工智能开发人员设置一个包含大量数据的训练过程,而该训练过程的结果就是通用人工智能模型。此类模型的内部运作原理大多不为人知,包括对于模型开发者来说也是如此。模型解释和“可解释性”技术可以提高研究人员和开发者对通用人工智能模型运行原理的理解,但是,尽管最近取得了进展,但这项研究仍处于起步阶段。

能力日益增强的自主智能体(能够自主行动、规划和授权以实现目标的通用人工智能系统)可能会给风险管理带来新的重大挑战。一般情况下,自主智能体通常可使用通用软件(例如网络浏览器和编程工具)自主地实现目标。目前,大多数自主智能体还不够可靠,无法广泛使用,但各家公司正在大力构建功能更强大、更可靠的自主智能体,并在近来数月取得了进展。自主智能体可能会变得越来越有用,但也可能加剧本报告中讨论的许多风险,并给风险管理带来新的难题。这些潜在的新挑战的例子包括:用户可能无法时刻掌握自己的自主智能体的动态,自主智能体的运行可能不受人控制,攻击者可能“劫持”自主智能体,以及人工智能之间的交互可能产生复杂的新风险。与自主智能体相关的风险管理办法才刚刚开始构建。

除了技术因素外,一些经济、政治和其他社会因素也使得通用人工智能领域的风险管理尤为困难。

通用人工智能的发展速度给决策者带来了“证据困境”。能力的迅速提升使得某些风险有可能在短时间内突然出现;例如,利用通用人工智能进行学术作弊的风险在一年内就从微不足道变得十分普遍。风险出现得越快,就越难以通过事后应对来管理风险,而提前准备就显得越有价值。然而,只要关于风险的证据仍不完整,决策者就无法确定风险是否会出现,或者是否已经出现。这就需要权衡:采取预防性或早期的缓解措施可能会被证明是不必要的,但等待确凿证据可能会让社会面临迅速出现的风险而毫无防备。

人工智能公司对其人工智能系统的了解,与政府和非行业研究人员对其人工智能系统的了解之间存在信息鸿沟。在通用人工智能系统广泛发布之前,公司通常只分享有限的信息。公司以商业顾虑和安全顾虑为由限制信息共享。然而,这种信息鸿沟也使得其他参与者更难以有效地参与风险管理,尤其是对于新兴风险而言。

无论是人工智能企业还是政府,往往都面临着激烈的竞争压力,这可能会导致它们降低对风险管理的重视程度。在某些情况下,竞争压力可能会促使企业投入在风险管理上的时间或其他资源少于原本应有的投入。同样,当政府认为在国际竞争和风险降低之间存在权衡时,它们可能会减少用于支持风险管理的政策投入。

尽管如此,针对通用人工智能的风险管理,存在多种可供公司采用、监管机构要求实施的技术和框架。这包括识别和评估风险的方法,以及减轻和监控风险的方法。

对通用人工智能系统进行的风险评估是风险管理的重要组成部分,但现有的风险评估存在严重局限性。现有的通用人工智能风险评估主要依赖于“抽查”,即在一系列特定情况下测试通用人工智能的行为。这有助于在部署模型之前发现潜在的危害。然而,由于测试条件与现实世界不同,现有测试往往会遗漏危险,并且高估或低估通用人工智能的能力和风险。

为了进行有效的风险识别和评估,评估者需要具备丰富的专业知识、充足的资源以及对相关信息的获取渠道。通用人工智能背景下进行严格的风险评估,需要将多种评测方法结合起来。这包括对模型和系统本身的技术分析,以及对某些使用模式可能带来的风险评估。评测方需要丰富的专业知识才能正确地进行此类评测。为了进行全面的风险评估,他们通常还需要更多时间、对其模型与训练数据更直接的访问权限,以及比开发通用人工智能的公司通常提供的更多有关所使用的技术方法的信息。

在训练通用人工智能模型以使其更安全地运行方面,目前已取得了一些进展,但目前尚无任何方法可以可靠地防止出现明显不安全的输出。例如,一种称为“对抗训练”(adversarialtraining)的技术故意将人工智能模型暴露于旨在使其在训练期间失败或行为不当的情景中,以增强其对这类情况的抵御能力。但是,对手仍然可以找到新的方法,以较低到中等的代价来规避此类防护措施。此外,最近的证据表明,当前的训练方法严重依赖不完善的人类反馈,可能会无意中促使模型在难以回答的问题上隐藏错误、误导人类,使错误更难被发现。提高这种反馈的数量和质量是一条可行的改进途径,不过通过人工智能检测误导行为的新兴训练技术也展现出了希望。

监控——在模型投入使用后识别风险和评估性能——以及各种预防有害行为的干预措施,能够提高通用人工智能在部署给用户后的安全性。当前的工具能够检测人工智能生成的内容、追踪系统性能,并识别潜在有害的输入/输出,不过技术稍好的用户往往能够绕过这些防护措施。

在整个人工智能生命周期中,存在多种隐私保护的方法。此类方法包括从训练数据中删除敏感信息、控制从数据中学习多少信息的模型训练方法(例如差分隐私(differentialprivacy)方法),以及将人工智能与敏感数据结合使用的技术,使得数据难以恢复(例如“机密计算”(confidentialcomputing)和其他隐私增强技术)。由于人工智能系统的计算需求,许多来自其他研究领域的隐私增强方法尚不适用于通用人工智能系统。近几个月来,隐私保护方法已经扩展到解决人工智能在敏感领域日益广泛的应用,包括智能手机助手、自主智能体、始终在线的语音助手以及医疗保健或法律实践中的应用。

四、结论:通用人工智能的未来存在多种可能的发展轨迹,这在很大程度上取决于社会和政府如何行动

通用人工智能的未来充满不确定性,即便在不久的将来,其发展轨迹也呈现出多种可能性,既有非常积极的结果,也有非常消极的后果。通用人工智能如何开发、由谁开发,它被设计来解决哪些问题,社会能否充分挖掘其经济潜力,谁将从中受益,面临何种风险,以及需在研究上投入多少资金来管控风险——这些问题以及许多其他问题,都取决于社会和政府当下及未来为塑造通用人工智能的发展所做出的选择。

(本文内容系“启元洞见”公众号原创编译,转载时请务必标明来源及作者)

参考来源:英国商业贸易部网站

参考题目:

International scientific report on the safety of advanced AI

参考链接:

https://assets.publishing.service.gov.uk/media/67bc549cba253db298782cb0/International_AI_Safety_Report_2025_executive_summary_chinese.pdf

免责声明:文章内容系作者个人观点,如有任何异议,欢迎联系我们!图片来源于网络,如有侵权请联系删除。

编辑 | 寂谷

审校 | echo

声明:本文来自启元洞见,版权归作者所有。文章内容仅代表作者独立观点,不代表安全内参立场,转载目的在于传递更多信息。如有侵权,请联系 anquanneican@163.com。