《先进人工智能安全国际科学报告：中期报告》发布

2023年11月，首届全球人工智能安全峰会在英国举办。包括中国、美国在内的28个国家和欧盟，共同签署了《布莱切利人工智能安全宣言》。参加峰会的国家同意就前沿人工智能的能力和风险撰写一份国际科学报告，类似联合国政府间气候变化专门委员会(IPCC)报告。2023年12月，联合国“人工智能高级别咨询机构”发布《以人为本的人工智能治理》的中期报告，支持国际社会在未来6-12个月内进行人工智能的科学评估、风险识别和风险分类。

2024年5月17日，图灵奖得主Yoshua Bengio牵头发布了这份《先进人工智能安全国际科学报告》中期报告。这份具有里程碑意义的报告由75位顶尖人工智能专家及由30个国家、欧盟和联合国提名的国际专家咨询委员会共同参与，对通用型人工智能的迅速发展进行了科学评估。报告旨在为政策制定者和公众提供对先进人工智能安全的、共享的、基于科学的、最新的理解，以促进相关决策的建设性讨论。

多位中方专家为本报告做出了重要贡献：高级顾问包括了来自清华大学的姚期智院士、张亚勤院士，以及香港科技大学的冯雁(Pascale Fung)教授；专家顾问委员会则有中科院自动化所的曾毅研究员；安远AI的吴君仪(Kwan Yee Ng)作为撰稿团队的一员，也为报告的撰写和完善做出了贡献。

对报告的详细讨论将在几天后的人工智能安全首尔峰会(AI Seoul Summit 2024)进行，我们期待这份报告能成为推动全球人工智能安全治理议程的重要支撑。

本文由方亮、段雅文、呼娜英、郭苏敏整理及翻译，下载报告全文。

执行摘要

关于本报告

●这是第一份《先进人工智能安全国际科学报告》的中期报告。由75位人工智能专家组成的多元化团队为本报告做出了贡献，其中包括来自30个国家、欧盟和联合国推荐的国际专家咨询委员会。

●在本报告主席的领导下，撰写该报告的独立专家们对内容具有完全的自主权。

●在人工智能发展取得空前进展的时期，这份中期报告将重点限定在近年来发展尤为迅速的一类人工智能：通用型人工智能(General-purpose AI)，即能够执行多种任务的人工智能。在快速发展的背景下，通用型人工智能的研究正处于科学发现的阶段，尚未形成科学定论。

●只有在适当管理其风险的情况下，全世界人民才能安全地享受通用型人工智能的众多潜在益处。本报告重点在于识别这些风险并评测技术方法以评估和减轻风险。它并不旨在全面评估通用型人工智能可能带来的所有社会影响，包括其众多潜在益处。

●历史上第一次，这份中期报告汇集了由30个国家、欧盟和联合国提名的专家以及其他世界领先的专家，为关于通用型人工智能安全的讨论和决策提供了一个共享的、基于科学和证据的基础。我们在通用型人工智能的能力、风险及其风险缓解方法等问题上仍存在一些大大小小的分歧。但我们认为这一项目对于提高我们对这一技术及其潜在风险的集体理解至关重要，并有助于达成共识和实施有效的风险缓解措施，以确保人们能够安全地享受通用型人工智能的潜在益处。利害攸关。我们期待继续这一努力。

执行摘要要点

●如果治理得当，通用型人工智能可以用于促进公共利益，带来更高的福祉、更多的繁荣和新的科学发现。然而，功能失调或被恶意使用的通用型人工智能也可能造成伤害，例如在高风险环境中做出有偏见的决策，或通过诈骗、虚假媒体或侵犯隐私等方式。

●随着通用型人工智能能力的不断提高，一些风险可能会出现，例如大规模的劳动力市场影响、利用人工智能进行黑客攻击或生物攻击，以及社会失去对通用型人工智能的控制等。虽然这些情景的可能性在研究人员中存在争议，但不同的风险观点通常源于对社会将采取的限制措施、措施的有效性以及通用型人工智能能力将如何迅速发展的不同预期。

●关于通用型人工智能能力未来进展的速度存在很大的不确定性。一些专家认为进展放缓目前是最有可能的，而另一些专家认为极其迅速的进展是可能的或是很有可能的。

●目前存在各种技术方法可供开发者和监管者采用，来评估和减少通用型人工智能带来的风险，然而这些方法都存在其局限性。例如，当前用于解释为什么通用型人工智能模型会产生特定输出的技术手段极其有限。

●通用型人工智能技术的未来是不确定的，即使在不久的将来也可能出现非常正面和非常负面的各种不同轨迹。但关于人工智能的未来，并非注定不可改变。社会和政府的决策有能力决定人工智能的未来。这份中期报告旨在促进相关决策的建设性讨论。

本报告综合了对通用型人工智能（即能够执行多种任务的人工智能）科学理解的现状，重点在于理解和管理其风险。

使用人工智能的系统能力正在迅速提高，这突显了人工智能为商业、研究、政府和个人生活创造的众多机遇。同时，也提高了人们对与先进人工智能相关当前危害和未来潜在风险的认识。

《先进人工智能安全国际科学报告》旨在朝着人工智能风险及其缓解方法的国际理解共识迈进一步。该报告的首份中期报告本将重点限定在近年来能力发展尤为迅速的一类人工智能：通用型人工智能，即能够执行多种任务的人工智能。

在快速发展的背景下，通用型人工智能的研究目前处于科学发现的阶段，尚未形成科学定论。本报告提供了关于通用型人工智能及其风险的当前科学理解的快照。这包括识别存在科学共识的领域以及存在不同观点或开放研究问题的领域。

只有在适当管理通用型人工智能的风险的情况下，全世界人民才能安全地享受其潜在的益处。本报告重点在于识别通用型人工智能的风险，并评估和减轻这些风险的评测技术方法，包括利用通用型人工智能来减轻风险。它并不旨在全面评估通用型人工智能可能带来的所有社会影响，包括其可能提供的益处。

根据多项指标，通用型人工智能的能力近年来迅速增长，对于如何预测未来的进展尚无共识，因此可能出现多种情景。

根据多项指标，通用型人工智能的能力正在快速提升。五年前，领先的通用型人工智能语言模型很少能生成连贯的段落。今天，一些通用型人工智能模型可以进行多轮对话、编写简短的计算机程序或根据描述生成视频。然而，可靠地估计和精确定义通用型人工智能的能力是困难的。

通用型人工智能的进展速度取决于技术进步的速度和监管环境。本报告侧重于技术层面，没有讨论监管措施可能如何影响通用型人工智能的发展和部署速度。

近年来，人工智能开发者主要通过不断增加用于训练新模型的资源（这一趋势称为“扩展(scaling)”）和改进现有算法，迅速提高了通用型人工智能的能力。例如，最前沿的人工智能模型用于训练的计算资源（算力）每年增长约4倍，训练数据集规模增长2.5倍，算法效率（相对于计算能力的性能）增长1.5-3倍。关于“扩展”是否在基础挑战（如因果推理）上取得了进展，研究人员之间存在争议。

通用型人工智能能力未来进展的速度对管理新兴风险有重要影响，但即便是在不远的将来，专家们的意见也存在分歧。专家们对通用型人工智能能力缓慢、快速或极其迅速的可能性持不同看法。这种分歧涉及一个关键问题：持续“扩展”资源和改进现有技术是否足以带来快速进展并解决可靠性和事实准确性等问题，还是需要新的研究突破才能大幅提升通用型人工智能的能力？

几家领先的通用型人工智能开发公司押注“扩展”将继续带来性能提升。如果近期趋势持续，到2026年底，一些通用型人工智能模型的训练将使用比2023年最计算密集的模型多40倍至100倍的计算资源，同时结合3倍至20倍更高效的使用这些计算资源的训练方法。然而，进一步增加数据和计算能力可能存在瓶颈，包括数据的可用性、人工智能芯片、资本支出和本地能源容量。开发通用型人工智能的公司正在努力应对这些潜在瓶颈。

有多个研究项目旨在更可靠地理解和评测通用型人工智能，但我们对通用型人工智能模型和系统的整体理解仍然有限。

管理通用型人工智能风险的方法通常基于这样一种假设，即人工智能开发者和政策制定者可以评估通用型人工智能模型和系统的能力及其潜在影响。然而，尽管技术方法可以帮助进行评估，但所有现有方法都有其局限性，不能对通用型人工智能相关的大多数危害提供强有力的保证。总体而言，对通用型人工智能的内部运作、能力及其社会影响的科学理解非常有限，专家们普遍认为应该优先提高对通用型人工智能的理解。其中的关键挑战包括：

●开发者对其通用型人工智能模型的操作原理仍知之甚少。这是因为通用型人工智能模型并不是通过传统编程方式编写的。相反，它们是通过训练得来的：人工智能开发者设定一个涉及大量数据的训练过程，训练过程的结果就是通用型人工智能模型。这些模型可以包含数万亿个称为参数的组件，其大多数内部工作原理对于模型开发者来说也是不可理解的。模型的可解释性技术可以帮助研究人员和开发者更好地理解通用型人工智能模型的运作，但这方面的研究还处于起步阶段。

●通用型人工智能主要通过对模型或系统进行各种输入测试来评估。这些抽查有助于评估其优点和缺点，包括脆弱性和潜在的有害能力，但不能提供量化的安全保证。这些测试常常会遗漏危害，且可能高估或低估能力，因为通用型人工智能系统在不同情况下、不同用户使用时或对其组件进行额外调整时可能表现不同。

●原则上，独立机构可以审计某公司开发的通用型人工智能模型或系统。然而，公司通常不会向独立审计人员提供必要的直接访问模型的权限或关于使用的数据和方法的信息，这些是进行严格评估所必需的。若干政府正开始建立进行技术评测和审计的能力。

●评估通用型人工智能系统的下游社会影响很困难，因为风险评估研究还不足以产生严格而全面的评估方法。此外，通用型人工智能有广泛的用例，这些用例通常未预先定义且限制较少，这使得风险评估更加复杂。理解通用型人工智能模型和系统的潜在下游社会影响需要细致和多学科的分析。增加在通用型人工智能开发和评测过程中多样化视角的代表性是一个持续的技术和制度挑战。

通用型人工智能可能对个人和公共安全以及福祉构成严重风险。

本报告将通用型人工智能的风险分为三类：恶意使用风险、故障风险和系统性风险。此外，还讨论了导致许多风险的几个交叉因素。

恶意使用与所有强大的技术一样，通用型人工智能系统也可能被恶意使用以造成危害。恶意使用的类型的证据相对较为充分，例如基于通用型人工智能的欺诈，到一些专家认为可能在未来几年发生的，例如恶意使用通用型人工智能的科学研发能力。

●一个证据相对较为充分的类型是通过通用型人工智能生成虚假内容对个人造成伤害。通用型人工智能可以用于增加诈骗规模和提升欺诈的复杂性，例如增强的“钓鱼”攻击。通用型人工智能还可以用于生成未经个人同意的假冒内容，例如未经同意的深度伪造色情视频。

●另一个关注点是通用型人工智能在虚假信息和操纵公众舆论方面的恶意使用。通用型人工智能和其他现代技术使得生成和传播虚假信息变得更容易，包括试图影响政治进程。尽管技术性对策（如内容水印）有一定用处，但通常能被具有一定技术水平的攻击者绕过。

●通用型人工智能还可能被恶意用于网络攻击，提升个人的网络专业技术，并使恶意用户更容易进行有效的网络攻击。通用型人工智能系统可以用于扩大和部分自动化某些类型的网络操作，例如社会工程攻击。然而，通用型人工智能也可以用于网络防御。总体而言，目前没有实质性证据表明通用型人工智能可以自动执行复杂的网络安全任务。

●一些专家还表示担忧，通用型人工智能可能被用于支持武器的开发和恶意使用，例如生物武器。目前没有强有力的证据表明现有的通用型人工智能系统会带来这种风险。例如，尽管现有的通型人工智能系统在生物学相关能力上有所提升，但现有研究并未提供明确证据表明当前系统能使恶意行为者比通过互联网更容易获得生物病原体。然而，未来的大规模威胁几乎未被评估，并且难以排除。

故障风险。即使用户无意造成伤害，通用型人工智能的故障也可能引发严重风险。此类故障可能有多种原因和后果：

●基于通用型人工智能模型和系统的产品功能可能被其用户误解，例如由于沟通不畅或误导性广告。如果用户随后以不合适的方式或出于不合适的目的部署这些系统，可能会造成伤害。

●人工智能系统中的偏见通常是一个已有充分证据的问题，对于通用型人工智能来说也尚未解决。通用型人工智能的输出可能在种族、性别、文化、年龄和残疾等受保护特征方面存在偏见。这可能会在高风险领域（如医疗保健、招聘和金融借贷）中带来风险。此外，许多广泛使用的通用型人工智能模型主要基于过度代表西方文化的数据进行训练，这可能会增加对未被这些数据充分代表的个人造成伤害的可能性。

●“失控”情景是指未来社会无法有效约束通用型人工智能系统的潜在情景，即使它们明显正在造成伤害。目前广泛共识认为，当前的通用型人工智能缺乏构成此类风险的能力。一些专家认为，当前开发通用自主人工智能（能够自主行动、规划和追求目标的系统）的努力如果成功，可能导致失控。专家们对失控情景的可能性、发生时间以及缓解难度尚存在分歧。

系统性风险。通用型人工智能技术的广泛开发和采用带来多种系统性风险，从潜在的劳动力市场影响到隐私风险和环境影响：

●通用型人工智能，尤其是如果进一步高速发展，具有自动化非常广泛任务的潜力，这可能对劳动力市场产生重大影响。这可能意味着许多人会失去现有工作。然而，许多经济学家预计，潜在的失业可能会被新创造出的工作和未被自动化的行业需求的增加所抵消，甚至完全抵消。

●目前，通用型人工智能的研究和开发集中在少数西方国家和中国。这种“人工智能鸿沟”有多种原因，但部分源于对开发通用型人工智能所需计算资源的获取能力不同。由于低收入国家和学术机构获得的计算资源比高收入国家和科技公司少，它们处于劣势。

●通用型人工智能开发中的市场集中使社会更容易受到多种系统性风险的影响。例如，只有少数几个通用型人工智能系统被广泛使用在金融或医疗保健等关键领域，这可能会导致这些相互依赖领域同时发生大范围的故障和中断，例如由于系统的漏洞或缺陷。

●通用型人工智能开发和部署中日益增长的计算资源使用迅速增加了与通用型人工智能相关的能源消耗。这一趋势没有放缓的迹象，可能导致二氧化碳排放和水消耗进一步增加。

●通用型人工智能模型或系统可能对隐私构成风险。例如，研究表明，通过使用对抗性输入，用户可以从模型中提取包含个人信息的训练数据。对于未来在敏感个人数据（如健康或财务数据）上训练的模型，这可能导致特别严重的隐私泄露。

●通用型人工智能开发中潜在的版权侵权对传统知识产权法以及关于数据的同意、补偿和控制系统构成挑战。不明确的版权制度使得通用型人工智能开发者不愿声明他们使用的数据，并且不清楚对未同意其作品被用于训练通用型人工智能模型的创作者提供了何种保护。

交叉风险因素。通用型人工智能相关风险的基础是几个交叉风险因素——这些因素增加了多个风险的概率或严重性：

●技术性交叉风险因素包括确保通用型人工智能系统可靠地按照预期行为的难度，我们对其内部运作缺乏理解，以及通用型人工智能“智能体”开发的持续进行，这些智能体可以在减少人类监督的同时自主行动。

●社会性交叉风险因素包括技术进步的速度与监管响应的速度之间的潜在差异，以及人工智能开发者因竞争激励而迅速发布产品，可能以牺牲全面的风险管理为代价。

虽然几种技术方法可以帮助减轻风险，但目前已知的方法都不能够对防止通用型人工智能的相关危害提供强有力的保证。

虽然本报告没有讨论减轻通用型人工智能风险的政策干预措施，但它讨论了研究人员正在取得进展的技术风险缓解方法。尽管有这些进展，当前的方法还没有在现实世界中可靠地防止明显有害的通用型人工智能输出。几种技术方法用于评估和减轻风险：

●目前在训练通用型人工智能模型以更安全地运行方面存在一些进展。开发者还训练模型更能抵抗旨在使其失效的输入（“对抗训练”）。尽管如此，攻击者通常可以以较小到中等的努力找到替代输入，降低安全措施的有效性。将通用型人工智能系统的能力限制在特定的使用场景中可以帮助减少因意外故障或恶意使用而产生的风险。

●有几种技术可以在通用型人工智能系统部署后识别风险、检查系统动作和评测性能。这些实践通常被称为“监测”。

●在通用型人工智能系统的生命周期内，包括设计、训练、部署和使用阶段，都存在应对偏见问题的方法。然而，完全防止通用型人工智能系统中的偏见是具有挑战性的，因为这需要系统的训练数据收集、持续的评测和有效的偏见识别。这还可能需要在公平性与准确性和隐私等其他目标之间进行权衡，并决定什么是有用的知识，什么是不应在输出中反映的不良偏见。

●隐私保护是一个活跃的研究和开发领域。简单地在训练中尽量减少使用敏感个人数据是一种可以大大降低隐私风险的方法。然而，当敏感数据有意或无意被使用时，现有的技术工具在大规模通用型人工智能模型中减少隐私风险方面难以扩展，并且难以为用户提供有意义的控制。

结论：通用型人工智能可能有多种发展轨迹，很大程度上取决于社会和政府的行动。

通用型人工智能的未来是不确定的，即使在不久的将来也可能出现非常正面以及非常负面的各种不同轨迹。但关于通用型人工智能的未来没有什么是必然的。通用型人工智能如何被开发、由谁开发、它被设计来解决哪些问题、社会能否充分利用通用型人工智能的经济潜力、谁将从中受益、我们暴露自己于哪些风险、以及我们在风险缓解研究上的投入程度——这些以及许多其他问题，取决于社会和政府今天和未来为塑造通用型人工智能发展所做的决策。

为了促进关于这些决策的建设性讨论，本报告提供了关于管理通用型人工智能风险的科学研究和讨论的现状概述。利害攸关。我们期待继续这一努力。

报告目录

贡献者（中方专家高亮）

关于“AI Guard x 安远AI｜前沿AI安全与治理”专栏

“AI Guard x 安远AI｜前沿AI安全与治理”专栏，由中国信息通信研究院人工智能研究所联合安远AI共建。本专栏重点关注前沿AI的风险分析、技术治理、行业实践、政府监管、国际治理等议题。通过分享最新的研究成果、政策动态和行业见解，我们致力于为政策制定者、技术开发者和企业决策者提供有价值的参考和指导，并促进前沿AI安全治理优秀实践在产业中落地。

关于AI Guard

AI Guard是中国信息通信研究院人工智能研究所依托AIIA安全治理委员会启动的系列精品活动，将持续开放AI Guard系列沙龙、AI Guard快讯、AI Guard观察、AI Guard线下论坛等栏目。我们旨在建立一个共商、共建、共享的人工智能安全治理开放社区。AI Guard招募联合运营单位及大咖，以“AI Guard×”共建系列活动。

关于安远AI

安远AI致力于引领人机关系走向安全、可信、可靠的未来。在AI安全和治理领域，安远AI既是第三方研究和咨询机构，也是目前该领域全国唯一的社会企业。安远AI创始人谢旻希任AIIA安全治理委员会专家委副主任委员。

声明：本文来自CAICT AI安全治理，版权归作者所有。文章内容仅代表作者独立观点，不代表安全内参立场，转载目的在于传递更多信息。如有侵权，请联系 anquanneican@163.com。

《先进人工智能安全国际科学报告：中期报告》发布

信通院发布《算力互联网体系架构研究报告（2025年）》

新加坡发布全球首个智能体治理框架

2025年域外人工智能安全治理范式