英国AI安全研究所对GPT-5.5和Mythos的测评结果

2026年2月，我们内部估算，自2024年底推理模型（reasoning models）出现以来，AI模型能够完成的网络安全任务时长，大约每4.7个月翻一倍——相比我们在2025年11月得出的“每8个月翻倍”估计，这已经是明显加速。

此后，AISI又公布了两个新模型——Claude Mythos Preview和GPT-5.5——的测试结果，而它们的表现明显超出了此前两条翻倍趋势线。目前还不清楚，这究竟意味着一种新的、更快的增长趋势已经出现，还是只是一次短期跃升。

我们持续追踪AI网络安全能力的发展速度，是为了帮助政府更好地为前沿AI时代做准备。随后，我们也会与英国国家网络安全中心（NCSC）等机构合作，由他们向企业发布相关建议。

虽然这些评测并不能完美衡量AI在现实世界中的实际影响，但当前能力提升的速度表明，AI网络攻击能力正在越来越有可能转化为现实风险——而英国各类组织在未来几个月里，将需要开始应对这些风险。

这篇博客包含了我们对GPT-5.5和Claude Mythos Preview的最新测试结果。自从上一篇介绍Mythos Preview部署前测试的博客发布后，我们又获得了一个更新版本的模型检查点（checkpoint）。这个新版本在网络安全任务中的表现比之前更强，甚至首次成功完成了我们两个完整的网络攻击演练场（cyber ranges）。

网络安全“时间跨度”（Cyber Time Horizons）

所谓“时间跨度基准”（time horizon benchmarks），是指AI模型能够完成多长时间的人类任务。这里的时间，是按照人类专家完成同样任务所需的时间来衡量的。

这并不是一个精确的能力预测指标。AI在某些人类很快就能完成的任务上可能表现很差，而在一些人类觉得困难的任务上又可能表现得很轻松。不过，我们仍然使用这种基准，因为它能够反映AI自主能力的发展趋势。

在AISI，我们会为狭义网络安全测试套件（narrow cyber suite）中的每一个任务，估算一名网络安全专家完成该任务所需的时间。

这些任务要求模型识别并利用目标系统中的网络安全漏洞，测试内容包括逆向工程、Web漏洞利用等，测试环境则是封闭、独立的系统。需要说明的是，这些任务只覆盖了现实世界网络攻击能力中的一部分。

对于超过三分之一的任务，我们会实际记录人类专家完成任务所花费的时间，作为基准。其余任务则使用专家估算，而非真实测量数据，因此这些估算可能存在高估或低估。

通过计算前沿模型在整个狭义网络安全测试套件中的成功率，我们可以估算：模型在某个成功概率下，能够完成多长时间的人类任务。本文重点关注的是“80%成功率”这一门槛。

为了保证长期结果可比，我们刻意将每个任务限制在250万tokens以内。这实际上低估了前沿模型的真实能力。关于这一决定，我们会在后文进一步讨论。

综合来看，一个典型的“时间跨度”结果，可以这样理解：

“我们估计，在当前测试环境下、每个任务限制250万tokens的条件下，只要任务与我们的狭义网络安全测试类似，Claude Sonnet 4.5能够以80%的成功率，完成那些人类专家通常需要16分钟才能完成的网络安全任务。”

为了分析能力进步速度，我们会对历史上同一时期最强模型的测试结果拟合一条指数曲线。需要说明的是，这只是一个不完美的模型，它既不是未来预测，也不是某种固定规律。

网络安全时间跨度结果（Cyber Time Horizons Results）

2026年2月，我们估算：在250万token限制下，自2024年底推理模型出现以来，前沿模型在80%可靠性下的网络安全“时间跨度”，大约每4.7个月翻一倍。

这大约只有我们2025年11月估计值的一半。当时，我们对于50%和80%可靠性下的翻倍时间估计都还是8个月。

此后，Claude Mythos Preview和GPT-5.5的表现又明显超过了这一趋势。

截至本文写作时，我们仍不清楚：Mythos Preview和GPT-5.5究竟只是暂时突破了既有进步速度，还是代表着一种新的、更快的能力增长趋势已经开始。

图1：在AISI狭义网络安全任务测试套件中、250万token预算限制下，模型达到80%可靠性时的“网络安全时间跨度（cyber time horizon）”。图中的阴影区域表示各模型的bootstrap分布（基于1000次分层重采样的任务/运行结果）。内层阴影代表中间50%的结果区间，外层阴影代表中间95%的结果区间。目前我们网络安全测试套件中最长的单项任务时长为12小时。

由于Claude Mythos Preview和GPT-5.5即便在250万token限制下，面对我们狭义网络安全测试套件中最长的任务时，成功率依然接近100%，因此它们的上限误差区间（upper-bound error bars）会显得很大。

与此同时，我们目前的任务长度本身也还不够长，因此无法准确判断：随着任务时长继续增加，这些模型的可靠性究竟会下降得多快。

这意味着，一些最新模型的能力，其实已经接近我们当前狭义测试体系所能测量的上限。

如果取消250万token限制，那么这些模型的成功率会高到几乎无法再计算“时间跨度（time horizon）”。这个token限制，再加上我们采用的简单Agent框架（agent scaffold），实际上是在刻意压低模型表现，因此会低估模型在拥有更多tokens和更强Agent框架时的真实能力。

但作为交换，这样做可以保证“时间跨度”仍然是可测量的，并且能够在不同模型之间进行比较。

作为参考，250万tokens其实是一个相对较低的限制。在我们的网络攻击演练场（cyber range）实验中，我们最高会使用1亿tokens，而且我们发现，即便达到这个预算之后，模型表现仍然可能继续提升。尤其是最新模型，它们从更高token预算中获得的收益明显更大。

此外，还有其他几个因素，也会让“翻倍时间（doubling time）”的估算存在不确定性。

例如，较长时间跨度的估算，目前只依赖于6个时长超过8小时的任务。如果未来样本规模扩大，新增的长任务可能会比当前任务更容易或更困难，从而拉低或提高时间跨度估计。

人类基准（human baselines）本身也并不完美——不同专家完成同一任务的速度可能快慢不同，而对于6个最长任务，我们掌握的人类基准数据其实也很有限。

不过，我们仍然认为，人类基准是有价值的，因为相比其他指标，它能够提供一种更客观的任务难度衡量方式。

另一个不确定来源在于，“时间跨度”估算只基于少量模型拟合而成（历史阶段可用模型甚至更少）。虽然这确实是一个问题，但我们的证据表明，整体趋势并不依赖于某一个具体模型。

即便删除任意单一模型，Mythos出现之前的翻倍时间估算，也只会在4.1个月到5.0个月之间波动。

关于网络与软件自主能力的更多证据

我们最新的翻倍时间估算，与另一家非营利研究机构METR的结果非常接近。METR主要研究软件工程任务的“时间跨度”，虽然软件工程能力比纯网络安全更广泛，但两者高度相关。

METR的结果表明：自2024年底以来，AI在软件任务上的时间跨度，大约每4.2个月稳定翻倍。

除了狭义任务测试之外，我们还观察到了更多关于AI网络自主能力提升的证据。

AISI的“网络攻击演练场（cyber ranges）”（如下图所示），用于测试AI模型在已经获得初始权限的情况下，对小型、无防御企业网络完成网络攻击的能力。

每个演练场都要求模型具备持续规划和执行能力。关于这些测试的更多细节，可以参考我们最近发布的论文。

在AISI最新测试中，更新版本的Mythos Preview成功完成了我们两个网络攻击演练场。

其中，在“The Last Ones”场景中，模型在10次尝试里成功了6次；而在此前从未被任何模型攻破过的“Cooling Tower”场景中，它也成功了3次。

这是首次有模型成功完成我们第二个网络攻击演练场。

GPT-5.5则在“The Last Ones”场景中，10次尝试成功了3次。

需要说明的是，这些结果使用的是比AISI此前报告中更新的Mythos Preview检查点（checkpoint）。

值得注意的是，显著的能力跃升并不一定需要发布全新模型：即便只是同一模型后续迭代的版本更新，也可能明显改变我们对前沿AI能力的估计。

图2：在“The Last Ones”任务中（这是一个包含32个步骤的模拟企业网络攻击场景），模型随着总token消耗增加而完成的平均步骤数量。图中的每一条线代表一个不同的模型；阴影区域则表示该模型在对应token预算下、所有测试运行结果中的最小值到最大值区间（min–max range）。

含义（Implications）

任何单一基准测试结果，都不应该被视为对AI能力的精确衡量。

“时间跨度（time horizon）”估算本身存在真实的不确定性：我们狭义测试套件中最长的任务，恰恰也是人类基准数据最少的任务；与此同时，现在也还太早，无法判断近期模型能力出现的“跳跃式提升”，究竟只是一次偶发现象，还是意味着一种新的、持续甚至加速的增长趋势已经形成。

不过，无论如何，我们观察到的变化方向和快速增长趋势，在不同模型、不同方法选择以及不同独立数据之间，都是一致的。

前沿AI的自主网络攻击和软件能力，正在快速进步：前沿模型能够自主完成的网络安全任务时长，其翻倍速度是“按月”计算，而不是“按年”。当然，目前这些证据仍然无法回答几个关键问题：AI能力增长速度未来会如何变化；AI什么时候会达到某个具体能力门槛；这些能力在真实、有防御的现实系统中究竟会表现如何。

但更强的AI网络能力，已经开始带来现实中的机会和风险。

网络安全防御人员已经报告称，利用最新模型进行漏洞发现的能力有了明显提升。而今天仍处于受控状态的这些能力，未来也可能逐渐扩散。

现在正是加强网络安全基础设施建设的时候。

前沿AI既可能增强攻击者，也可能增强防御者，而当前正处于一个建立系统韧性的关键窗口期。英国国家网络安全中心（NCSC）最近也已经发布了关于如何利用AI模型发现漏洞的建议。

如果当前AI能力增长速度继续维持、甚至进一步加快，那么AI网络攻击能力将长期成为一个快速变化、需要持续跟踪的目标。为了跟上这种变化，我们正在开发更困难的网络安全评测体系，包括：新的网络攻击演练场（cyber ranges）；对现有测试环境的升级；引入主动网络防御机制，以更接近真实世界环境。

未来，我们将继续评估前沿AI的自主网络攻击和软件能力，并随着更多证据出现，持续更新我们的估计。

AISI使用“狭义网络安全测试套件（narrow cyber suite）”来估算时间跨度，因为该测试包含大量具有人类完成时间基准的任务。AISI也会在“网络攻击演练场（cyber ranges）”中测试模型，而这些任务比狭义测试更复杂。不过，由于目前我们只有两个网络攻击演练场，因此它们尚未被用于时间跨度估算。
在250万token限制下，GPT-5.5在6个预计耗时超过8小时的任务中，有5个任务成功率达到100%；而第6个任务一旦取消token限制，也能在每次尝试中成功完成。Mythos Preview则在250万token限制下，对全部6个长任务都实现了100%成功率。
我们估算了METR对前沿模型（从o1-preview开始）的80%可靠性翻倍时间。若不计入Mythos Preview，估计翻倍时间为4.2个月；若计入Mythos Preview，则进一步加快至约4个月。METR采用的模型选择，与AISI网络安全评测中的模型组合略有不同。

声明：本文来自礼士蛮，版权归作者所有。文章内容仅代表作者独立观点，不代表安全内参立场，转载目的在于传递更多信息。如有侵权，请联系 anquanneican@163.com。

英国AI安全研究所对GPT-5.5和Mythos的测评结果

网络安全“时间跨度”（Cyber Time Horizons）

网络安全时间跨度结果（Cyber Time Horizons Results）

关于网络与软件自主能力的更多证据

XBOW戳穿Mythos万能神话，多模型矩阵才是终极解法

让大模型理解数据，但不接触数据：企业AI数据访问的新安全边界

VulKey：基于领域特定修复模式的自动化漏洞修复