国际人工智能安全报告(International AI Safety Report, 全称为《高等人工智能安全国际科学报告(International Scientific Report on the Safety of Advanced AI)》) 于1月29日正式发布。该报告发起于2023年在英国布莱切利举行的人工智能安全峰会(AI Safety Summit),由英国人工智能安全研究所主导,邀请包含中国在内的30个国家的学者和机构参加。曾于2024年5月人工智能首尔峰会(AI Seoul Summit)发布中期报告,本次报告是国际人工智能安全报告(International AI Safety Report)2025年版的最终报告。并将在2月7日法国人工智能行动峰会科学日(AI Action Summit Science Day)期间由报告主席,图灵奖获得者加拿大Yoshua Bengio教授宣讲。

中国学者和机构以不同形式参与和贡献于本报告的形成全过程。中国科学院自动化研究所研究员、人工智能安全与超级对齐北京市重点实验室主任曾毅作为30国专家顾问委员会(Expert Advisory Panel)委员参与各个阶段报告的形成与研讨,安远AI (Concordia AI)吴君仪(Kwan Yee Ng)作为写作组成员参与报告撰写,清华大学姚期智教授、张亚勤教授作为高级顾问(Senior Advisor)参与报告。

报告核心介绍和主要发现如下:

关于本报告

•这是首份《国际人工智能安全报告》。继2024年5月发布中期报告后,96位人工智能(AI)专家为本报告提供了贡献,其中包括由30个国家、经济合作与发展组织(OECD)、欧盟(EU)和联合国(UN)提名的国际专家咨询小组。本报告旨在提供科学信息,以支持基于证据的政策制定。报告并未推荐具体政策。

本报告由独立专家撰写。在主席的领导下,撰写本报告的独立专家对报告内容拥有完全的自主权。

尽管本报告关注AI风险和AI安全,但AI也为个人、企业和社会带来了许多潜在益处。AI有多种类型,每种类型都有不同的益处和风险。在大多数应用场景中,AI通常帮助个人和组织提高效率。但只有在适当管理AI风险的情况下,全球各地的人们才能安全地充分享受AI的诸多潜在益处。本报告重点在于识别这些风险并评估缓解方法,而非全面评估AI的所有可能社会影响,包括其许多潜在益处。

本报告的重点是通用人工智能。报告将关注点限制在近年来发展尤为迅速且相关风险研究较少的一类AI上:通用人工智能,即能够执行多种任务的AI。本报告的分析聚焦于撰写时最先进的通用AI系统,以及未来可能更强大的系统。

本报告总结了关于三个核心问题的科学证据:通用人工智能能做什么?与通用人工智能相关的风险有哪些?有哪些缓解这些风险的技术?

风险与机遇并存。我们,即为本报告做出贡献的专家,在通用人工智能的能力、风险及风险缓解等若干问题上仍存在分歧,无论问题大小。但我们认为,本报告对于提高我们对这一技术及其潜在风险的集体理解至关重要。我们希望本报告能够帮助国际社会在通用人工智能方面达成更大共识,并更有效地缓解其风险,从而使人们能够安全地体验其诸多潜在益处。风险与机遇并存,我们期待继续推进这一努力。

报告的主要发现

通用人工智能(本报告重点关注的AI类型)的能力近年来迅速提升,并在最近几个月进一步改善。几年前,最好的大型语言模型(LLMs)很少能生成连贯的段落文本。如今,通用人工智能可以编写计算机程序、生成定制的逼真图像,并进行长时间的开放式对话。自《中期报告》(2024年5月)发布以来,新模型在科学推理和编程测试中表现出显著更好的性能。

许多公司正在投资开发通用人工智能,作为进一步发展的潜在方向。智能体是通用人工智能系统,能够在几乎没有人类监督的情况下自主行动、规划和委派任务以实现目标。复杂的智能体将能够使用计算机完成比当前系统历时更长的项目,这将释放额外的益处和风险。

未来几个月和几年内的能力进步可能从缓慢到极其迅速不等。进展将取决于公司是否能够快速部署更多的数据和计算能力来训练新模型,以及这种“扩展”模型的方式是否能够克服当前的局限性。最近的研究表明,快速扩展模型在物理上可能至少在几年内仍然是可行的。但重大能力进步可能还需要其他因素:例如,新的研究突破(难以预测),或公司最近采用的新型扩展方法的成功。

通用人工智能已经带来了一些明确的危害。这些危害包括诈骗、非自愿亲密图像(NCII)和儿童性虐待材料(CSAM)、模型输出对某些群体或观点的偏见、可靠性问题以及隐私侵犯。研究人员已经开发了缓解这些问题的技术,但到目前为止,没有任何技术组合能够完全解决这些问题。自《中期报告》发布以来,新的证据揭示了与通用人工智能系统相关的更微妙的偏见形式。

随着通用人工智能能力的提升,更多风险的证据逐渐显现。这些风险包括大规模的劳动力市场影响、AI驱动的黑客攻击或生物攻击,以及社会对通用人工智能失去控制。专家对这些风险的现有证据有不同的解读:一些人认为这些风险还需要几十年才会出现,而另一些人则认为通用人工智能可能在几年内导致社会规模的危害。通用人工智能能力的最近进展——特别是在科学推理和编程测试中——为AI驱动的黑客攻击和生物攻击等潜在风险提供了新的证据,导致一家主要AI公司将其最佳模型的生物风险评估从“低”提高到“中”。

风险管理技术尚处于初期阶段,但进展是可能的。开发人员可以采用各种技术方法来评估和减少通用人工智能的风险,监管机构也可以要求这些方法,但它们都有局限性。例如,目前解释通用人工智能模型为何生成特定输出的可解释性技术仍然非常有限。然而,研究人员正在解决这些局限性方面取得一些进展。此外,研究人员和政策制定者正越来越多地尝试标准化风险管理方法,并在国际上协调。

通用人工智能进展的速度和不可预测性给政策制定者带来了“证据困境”。鉴于有时快速且出乎意料的进展,政策制定者通常不得不在没有大量科学证据的情况下权衡即将到来的AI进展的潜在益处和风险。在此过程中,他们面临一个困境。一方面,基于有限证据的预防性风险缓解措施可能最终无效或不必要。另一方面,等待更强的风险证据可能会让社会措手不及,甚至使缓解变得不可能——例如,如果AI能力突然飞跃,其相关风险也随之而来。公司和政府正在开发早期预警系统和风险管理框架,可能会减少这种困境。其中一些系统在有新的风险证据时触发特定的缓解措施,而另一些则要求开发人员在发布新模型之前提供安全证据。

研究人员普遍认为,以下问题的进展将是有帮助的:未来几年通用人工智能的能力将如何快速发展,研究人员如何可靠地衡量这一进展?什么是触发缓解措施的合理风险阈值?政策制定者如何最好地获取与公共安全相关的通用人工智能信息?研究人员、技术公司和政府如何可靠地评估通用人工智能开发和部署的风险?通用人工智能模型内部如何运作?如何设计通用人工智能以使其行为可靠?

AI并非偶然发生:人类的决定将决定其未来。通用人工智能技术的未来充满不确定性,即使在不久的将来,也可能出现各种轨迹,包括非常积极和非常消极的结果。这种不确定性可能引发宿命论,使AI看起来像是我们无法控制的事物。但正是社会和政府如何应对这种不确定性的决定,将决定我们将走向哪条道路。本报告旨在促进关于这些决策的建设性和基于证据的讨论。

参阅本报告主席声明。

主席声明

在本报告撰写结束后(2024年12月5日)至本报告发布(2025年1月)期间,发生了一项重要进展。AI公司OpenAI分享了一个新AI模型o3的早期测试结果。这些结果表明,在编程、抽象推理和科学推理等多项领域最具挑战性的测试中,o3的表现显著优于以往任何模型。在其中一些测试中,o3的表现甚至超过了许多(但并非全部)人类专家。此外,它在一项关键的抽象推理测试中取得了突破性进展,而包括我在内的许多专家曾认为这一突破在近期内是无法实现的。然而,截至撰写时,关于其在实际任务中的能力,特别是解决开放式任务的能力,尚无公开信息。

o3的结果表明,AI能力的进展速度可能保持高位甚至加速。更具体地说,这些结果表明,为模型提供更多计算资源以解决特定问题(“推理扩展”)可能有助于克服之前的局限性。一般来说,推理扩展会增加模型的使用成本。但正如另一家公司在2025年1月发布的显著模型R1所示,研究人员正在成功降低这些成本。总体而言,推理扩展可能使AI开发者在未来取得进一步进展。o3的结果还强调了需要更好地理解AI开发者越来越多地使用AI如何影响AI自身发展的速度。

o3所体现的趋势可能对AI风险产生深远影响。科学和编程能力的提升此前已经为网络攻击和生物攻击等风险提供了更多证据。o3的结果也与潜在的劳动力市场影响、失控风险以及能源使用等问题相关。但o3的能力也可以用于帮助防止故障和恶意使用。总体而言,阅读本报告中的风险评估时,应理解自报告撰写以来AI能力已有所提升。然而,目前尚无关于o3实际影响的证据,也没有信息能够确认或排除重大新型和/或即时风险。

o3结果所暗示的能力提升以及我们对AI风险影响的有限理解,突显了本报告指出的政策制定者面临的一个关键挑战:他们通常不得不在没有大量科学证据的情况下权衡即将到来的AI进展的潜在益处和风险。尽管如此,生成关于o3所暗示趋势的安全性和安全性影响的证据,将成为未来几周和几个月内AI研究的紧迫优先事项。

报告全文可从以下地址获取:

https://assets.publishing.service.gov.uk/media/679a0c48a77d250007d313ee/International_AI_Safety_Report_2025_accessible_f.pdf

声明:本文来自人工智能治理,版权归作者所有。文章内容仅代表作者独立观点,不代表安全内参立场,转载目的在于传递更多信息。如有侵权,请联系 anquanneican@163.com。