文章信息

Introducing the OECD AI Capability Indicators

来源:OECD

时间:2025年

2022 年 11 月 ChatGPT 推出后,人工智能(AI)对人类活动的潜在影响开始引发公众广泛想象。然而,尽管人工智能发展迅速,公众对其影响的理解却未能跟上。要弄清楚人工智能如何改变人类活动,仍有大量工作要做。

本报告介绍了经合组织(OECD)新推出的人工智能能力指标。这些指标旨在为政策制定者提供一个基于证据的框架,以理解人工智能能力并将其与人类能力进行比较。该指标历时五年开发而成,借鉴了庞大的人工智能研究者、心理学家及其他专家网络的成果。配套技术报告(OECD, 2025 [1])的各章节由 32 位专家撰写,并由另外 25 位专家评审。

九项指标涵盖了一系列人类能力,每项指标都描述了人工智能向完全等效人类能力发展的过程,包括:语言、社交互动、问题解决、创造力、元认知与批判性思维、知识、学习与记忆、视觉、操作以及机器人智能。这些指标以五级量表呈现,其中人工智能系统最具挑战性的能力位于量表顶端。每个等级都包含对该等级人工智能系统能够准确且持续执行的各类能力的简要描述。每个量表上当前人工智能表现的评级均与现有证据相关联。

这些指标目前以测试版形式发布,诚邀两类关键利益相关者提供反馈:人工智能研究者和政策制定者。研究者的人工智能评估工作为指标提供证据,而解读和利用量表洞见的能力对制定合理政策至关重要。同时也欢迎其他利益相关者提供反馈。经合组织将在收集利益相关者反馈并制定系统性更新协议后,发布指标的首个完整版。

1. 主要结论

作为一个对公众负责的政府间组织,经合组织在人工智能评估方面处于独特的领先地位,凭借其在国际技能比较评估方面的经验,能够为全球社会提供权威成果。

经合组织的方法利用现有证据制定人工智能能力指标,既反映最新研究成果,又能为非技术受众所理解。这些指标描述了人工智能能力向完全等效人类能力发展的进程。

本报告介绍了九项源于人类心理学的人工智能能力指标,由经合组织人工智能与未来技能团队及 50 多位外部专家共同开发。

这些指标通过五级量表进行说明,该量表描述了人工智能系统向等效人类能力发展必须整合的多个维度和任务。每项指标的等级都有证据支持,这些证据用于描述当前人工智能系统的能力 —— 在各指标量表上,其能力介于 2 级到 3 级之间。

这些指标可用于映射人工智能向工作所需人类能力的发展进程。将指标与职业和任务需求相映射,以及由此产生的 “差距” 分析,可作为起点,用于分析随着人工智能能够协助或替代工人执行某些任务,特定职业可能会如何演变。这些指标还可用于推动基于价值观的讨论,探讨量表各等级的能力应如何在整个经济领域的职业中应用。

此外,这些指标有助于更好地理解人工智能对教育的影响。它们可为识别人工智能系统在哪些方面能推动教育的转型变革提供框架,帮助明确哪些教学任务可能会被重塑,哪些学习目标可能需要调整。尽管这些指标不规定基于价值观的决策,但它们突显了教育的交付方式和目标在技术上可能发生转变的领域,为未来有关课程、教师角色和学生能力的讨论提供信息。

2.经合组织人工智能能力指标概览

经合组织教育研究与创新中心(CERI)的 “人工智能与未来技能”(AIFS)项目提出了一个框架,用于系统衡量人工智能(AI)和机器人能力,并将其与人类技能进行比较。本章概述了人工智能在各项经合组织人工智能能力指标上的表现。第一节介绍了一个比较表,并提供了理解该表所需的信息。该表显示了每个领域人工智能的当前水平,并描述了 2024 年 11 月最先进的人工智能系统所具备的各类能力。表格下方的简要评论解释了经合组织专家组将人工智能系统评为该等级的理由,以及使人工智能系统能够晋级到下一等级所需的能力。

当前人工智能能力比较表

表 1.1 概述了最先进的人工智能(AI)系统的当前能力。每个领域人工智能系统的当前等级旁都附有对该等级人工智能系统所具备能力的描述。表格下方的评论简要说明了经合组织专家组将人工智能系统评为该等级的原因,以及使人工智能系统能够在量表上晋级到下一等级所需的能力。

表1.1.当前AI能力水平概述

经合组织开发了五级量表,以一种领域外人士易于理解的方式来呈现人工智能能力的发展。这些量表旨在涵盖所有类型的人工智能系统。当前的评级包括特定领域的符号人工智能系统、神经符号系统、大型语言模型(LLMs)、社交智能体以及各领域最前沿的机器人系统。一方面,等级 1 反映了当前人工智能系统已长期解决且公认属于基础性的能力;另一方面,等级 5 的人工智能系统能够复制相应人类能力的所有方面。中间的三个等级展示了人工智能在不同方面朝着完全等效人类能力发展的过程。

经合组织在第 2 章中解释了开发这些量表的方法,更详细的内容可参见配套的技术报告(OECD, 2025 [1])。对人工智能系统的评级反映了 2024 年 11 月的技术水平。

要被评为某一等级,人工智能系统必须始终且可靠地具备该等级所描述能力的大部分方面。例如,我们的专家将大型语言模型置于语言量表的 2 级与 3 级临界点。大型语言模型具备 3 级语言能力所描述的许多方面,但由于它们无法进行规范的分析推理、存在生成错误信息(幻觉)的倾向,且没有动态学习能力,因此受到限制。尽管如此,由于大型语言模型满足该等级语言能力的其他大部分方面,因此被评为 3 级。

当前人工智能系统的一个显著缺陷 —— 大型语言模型中持续存在的幻觉问题 —— 在各个量表中以多种方式直接或间接体现。知识、学习与记忆量表指出,幻觉问题将在 5 级得到解决;语言量表也指出,批判性思维将在 5 级出现;元认知与批判性思维量表则指出,对知识的批判性评估将在 3 级出现。这种跨量表的多样性凸显了在预测解决这一挑战的相对难度方面存在的不同观点;量表的这一方面可能需要在未来版本中进行统一。然而,这些量表的一个重要作用是提醒公众,幻觉只是众多挑战之一:要使人工智能达到人类水平的表现,还需要解决多项挑战。

读者会注意到,我们的专家将当前所有人工智能的水平都定为 2 级和 3 级,这是我们构建首个量表的方法所带来的间接结果。这些量表旨在从过去到人工智能能够重现该能力所有人类方面的假设未来,呈现每项能力的主要发展。每个量表中的等级描述都勾勒出了该领域的主要发展步骤。那些已经实现的发展处于较低等级,而那些尚未实现的则处于较高等级。4 级和 5 级通常描述的是人工智能仍难以始终且可靠地执行的能力方面。

该领域的许多研究者可能不同意我们对 2024 年技术水平的判断,或对五级量表上能力的分布有不同看法。经合组织鼓励人工智能研究者与本组织联系,协助我们的更新工作,使这些量表更贴合最新发展。

本章中的等级描述是缩略版;每个等级及其配套量表的完整版本可参见第 3 章。

2025-OECD-Introducing the OECD AI Capability Indicators.pdf

来源:OECD

编辑:中国科学院大学经管学院研究生张丽

声明:本文来自图灵财经,版权归作者所有。文章内容仅代表作者独立观点,不代表安全内参立场,转载目的在于传递更多信息。如有侵权,请联系 anquanneican@163.com。