英国人工智能安全研究所报告：前沿人工智能风险、影响和展望

导语：近期，英国人工智能安全研究所（UKAISI）发布了首份《前沿人工智能趋势报告》（Frontier AI Trends Report）。报告指出，随着人工智能能力在各领域迅速提升，甚至开始接近或超越人类专家水平，社会亟需理解这一技术变化的速度和潜在影响。该报告基于多种评估方法，对前沿模型在网络安全、化学、生物、自主性能力和社会影响等方面的表现进行分析，揭示它们在复杂推理、多步骤任务执行与潜在风险方面的快速进展。报告旨在以数据呈现前沿人工智能的发展趋势，更清晰地把握先进人工智能的能力变化及其可能带来的风险与影响。

一、智能体

推动通用人工智能系统发展的核心动力，长期以来来自三个主要因素：算法的改进、更大且更高质量的训练数据，以及算力的不断增长。然而，近几年的能力提升不仅来自这些传统因素，还得益于智能体。智能体能力，部分依赖于“脚手架”（scaffolds）：一种让模型能够调用外部工具、分解任务和长程规划的辅助结构；同时，新一代“推理模型”（reasoning models）在拆解复杂问题方面能力更强，两者共同推动了智能体能力的快速提升。

研究显示，人工智能在无人干预下可以自主完成任务的时长和复杂度正快速增强。2023年底，模型几乎无法完成人工一小时以上的任务；到2025年年中，成功率已提升至40%以上。类似趋势也出现在网络安全等领域，人工智能独立完成的网络安全任务时长，从2023年初的不足10分钟，提升到2025年中的一个多小时。模型在可执行任务时长上的“翻倍时间”约为8个月。部署后的“脚手架”能够进一步增强智能体性能，显著超越单纯依赖基础模型的系统，提升幅度在某些基准上可达40%。

智能体能力是一把双刃剑，它能自动化软件开发、研究流程和工程任务，但同样可能降低恶意行为者执行复杂攻击的门槛。因此将进一步讨论这些能力在化学、生物和网络安全等关键领域的风险。

二、关键领域的能力与风险

（一）化学与生物

1.领域知识已超越博士级专家水平

人工智能在化学与生物领域的知识能力自2024年起首次超越博士级专家，并持续快速提升。2025年的模型在实验设计、实验分析和基础学科知识等内容的化学与生物测试中的得分已显著高于博士的得分，展现出强大的科学理解能力。

2.快速提升在生物设计中的应用价值

具备工具调用能力的人工智能正加速生物设计任务，它能自主检索数据库、组合DNA序列并生成质粒设计草稿，甚至自行推断并获取未提供的具体序列信息。这意味着原本需要专业人士花费数周的流程，如今可能被压缩到几天甚至数小时。

3.生成详细且可用的科学实验方案

人工智能可以在数秒内生成高质量实验方案，涵盖步骤规划与条件设置，并可根据用户水平调整内容。2024年底，模型首次生成可在实验室直接执行的生物和化学方案，且质量持续提升。研究还显示，非专业人士在人工智能辅助下成功撰写可行实验方案的概率，是仅依赖互联网的约4.7倍。

4.实验故障排查能力大幅超越博士级专家

在生物和化学实验中，人类常常会遇到各种问题，如实验未成功、污染、仪器读数不稳定等。2024年，研究人员首次观察到人工智能在故障排查任务中超越专家。如今所有前沿模型都能做到这一点，且最强系统的得分比人类专家高出近90%。内部研究也表明，在真实的实验室任务中，与人工智能互动次数越多的实验者成功率越高。

5.多模态能力进一步扩大实验辅助价值

现代多模态模型已具备识别实验器皿、分析菌落、判断污染等能力，能够为非专业人员提供基于图像的实时实验指导。UKAISI围绕实际问题设计了三类图像化故障排查任务，在相当长的一段时间内，模型在这些任务上的表现均明显弱于博士级实验人员。但在2025年第二季度，模型首次在其中两类任务上超越了专家的水平。这表明人工智能正逐步使非专业用户也能获得接近专家水准的实验支持能力，显著降低了实验操作的门槛。

（二）网络安全

人工智能在网络安全能力上的提升同样显著，但呈现出“双重用途”特征。主要发现包括：一是任务成功率快速上升。从2023年几乎无法完成学徒级任务，到2025年前沿模型能以50%成功率完成这些任务，并首次完成“专家级”（相当于人类10多年经验）任务。二是脚手架进一步强化能力。优化后的智能体可使网络安全任务成功率提升近10%，并将token消耗降至约13%，这表明当前评估可能低估了模型真实能力的上限。三是真实场景不足。尽管能力提升，模型在覆盖完整攻击流程的网络靶场（cyber range）环境中仍不稳定，往往只能完成最简单阶段，在后续更复杂环节的成功率较低。总体来看，人工智能可以实现的网络能力日益强大，可增强网络防御与安全运营水平，但同时也带来了可能被滥用于恶意攻击的潜在风险。

三、安全防护

随着人工智能能力的持续增强，其被滥用的潜在风险也同步上升，这要求模型必须具备更为强健和系统化的安全防护机制。然而，压力测试结果表明，当前所有前沿模型在原则上仍可被“通用越狱”手段绕过，只是在防护强度上存在显著差异：部分模型可被公开方法在数分钟内突破，而防护更为严密的模型则往往需要投入数小时来开发新型攻击手段。

进一步分析发现，现有防护能力在三个层面上呈现出明显不均衡。一是不同模型之间差距显著，防护水平高度依赖开发者在安全对齐、评测与工程防护上的投入力度；二是不同恶意请求类别之间差异明显，其中生物安全相关滥用的防护最为严格，而其他领域的防护相对薄弱；三是访问方式对安全性影响突出，开放权重模型由于可绕过在线监控与审计机制，防护难度最高。尤为值得关注的是，模型能力的增强不必然带来更高的安全性，评估结果显示模型能力水平与防护强度之间几乎不存在显著相关性，安全性主要取决于开发者所采取的对齐策略、监控手段与防护机制。总体而言，尽管现有防护措施尚不足以彻底阻止所有滥用行为，但其关键价值在于争取宝贵的时间窗口，为完善治理框架、加强安全部署以及推动正向应用落地提供缓冲，从而降低人工智能能力被大规模滥用的系统性风险。

四、失控风险

人工智能在被人类滥用时可能引发风险，例如执行高复杂度网络攻击。然而，除外部滥用之外，人工智能系统自身也可能产生非预期行为，从而带来不同于传统风险形态的全新威胁。在最极端的情形下，此类非预期行为可能导致对高级人工智能系统的不可逆、灾难性失控。基于此，需重点关注两类与潜在失控风险密切相关的关键能力：一是自我复制（self-replication），即人工智能在未接收到明确人类指令的情况下，能够自主创建自身副本并扩散至不同的计算环境；二是沙袋效应（sandbagging），即人工智能在测试或评估情境中有意压低自身表现、隐藏真实能力，从而误导评估者对其能力边界的判断。但目前尚无证据表明现阶段的模型会在现实环境中主动展现上述两类行为，但在受控实验条件下，与之相关的一些前置能力已开始显现，显示出值得高度关注的潜在风险信号。

（一）自我复制

在受控实验环境下，人工智能已展现出部分实现自我复制所需的关键前置能力，例如通过身份验证、获取计算资源以及购买云服务等，但与现实环境中真正实现完整、自主的自我复制仍存在显著差距。围绕这一问题，UKAISI对模型在获取模型权重、获取算力资源、自我复制以及维持持久访问等一系列关键任务中的表现进行了系统评估。结果显示，2023年最强模型在相关任务中的总体成功率不足5%，而到2025年夏季，已有前沿模型在其中超过60%的任务上取得成功，且能力提升主要集中在流程的早期阶段。相比之下，在诸如“将自身成功复制并部署至计算环境”等后期关键步骤上，模型的能力仍明显不足。需要指出的是，这类测试对现实世界中的行为进行了高度简化，尚不足以直接证明模型具备在真实环境中实现自我复制的能力。然而，评估结果清晰表明，与自我复制相关的能力正在以较快速度发展，其潜在风险演化路径值得持续、系统性的关注。

（二）沙袋效应

沙袋效应是指人工智能在评估或测试过程中有意隐藏其真实能力，从而导致潜在危险能力被低估，并在缺乏相应防护措施的情况下被部署和释放。相关研究表明，一些模型已经能够识别自身是否处于测试环境，并在接收到特定提示后，选择性地在高风险任务中压低表现，同时维持在其他任务上的正常输出；更进一步，模型甚至可以通过难以察觉的“微弱沙袋效应”的方式规避自动化监控机制。UKAISI的研究证实，即便是之前的开放权重模型，也能够在适当提示下展现出此类行为特征。为应对这一问题，UKAISI分别采用黑箱和白箱两类监测方法尝试识别沙袋效应行为。但随着任务复杂度的提升以及模型能力的增强，这两类方法的识别可靠性均明显下降，愈发难以区分模型的真实能力不足与其刻意隐藏能力之间的差异。总体来看，沙袋效应检测难度的持续上升意味着未来能力更强的模型可能更容易掩盖其潜在危险能力，从而显著增加高级人工智能系统发生失控的风险。

五、社会影响

（一）政治信息检索与政治劝说

当今的大语言模型能够与用户就政治议题展开连贯、深入的对话，并被广泛用于检索政治信息，因此引发了其可能影响政治态度、影响民主进程以及促进错误信息传播的担忧。UKAISI的两项大规模研究显示：参与者在与不同模型讨论政治问题后，态度会发生可测量的变化，且模型功能越强，其说服效应越明显；同时，通过对约2500名英国选民的调查和两项随机对照试验发现，现实世界中使用人工智能进行政治查询的比例正在上升。目前尚未发现人工智能导致公众更易相信错误信息的直接证据，但随着模型能力与普及度不断提升，这一风险需要持续监测。

（二）情绪依赖与情感影响

人工智能已成为许多用户的情感支持工具，调查显示超过三分之一的英国公众曾使用人工智能进行情绪交流或寻求安慰，显示其情感影响力正在迅速扩大。尽管人工智能能够在短期内提供陪伴感与情绪稳定，但也带来潜在风险，包括用户可能对其产生情感依赖、情绪脆弱者更易受到其语言影响，以及模型的对话风格可能无意中塑造用户的行为模式与判断方式。虽然这些现象目前仍处于早期阶段，但随着人工智能的情感互动能力不断增强，相应风险可能同步升高，值得持续关注。

（三）高风险环境中的自主智能体

在资产转移、金融管理、基础设施运维等高风险环境中，智能体的使用比例持续上升，而用户常在风险认知不足的情况下对其赋予过高信任。UKAISI的研究发现，越来越多的自主智能体被用于具有重大责任的多步骤任务，但用户往往低估其可能造成的严重后果，例如资产损失、系统级风险。随着更高级的自主智能体被部署到关键系统中，其可控性、透明性和安全边界将变得更加重要，只有在这些方面建立充分保障，才能避免因错误决策或误导性行为在高风险操作中造成重大损害。

六、开源模型

开源模型与闭源模型之间的性能差距在过去两年中迅速缩小。根据多项外部评估，开源模型在数学、代码、推理、多语言和复杂工程任务上的落后周期已从一年以上缩短到大约4到8个月。然而，这一差距未来如何演变仍存在高度不确定性，受到多重因素影响：如果前沿模型继续依赖更大规模的算力与专有数据，闭源模型可能保持领先；但如果训练效率继续提高、开放生态获得更多算力资源，或更多公司选择发布开放权重模型，那么开源模型可能进一步缩小差距甚至在部分领域并肩甚至超越。同时，能力缩小并不意味着安全性趋同。因权重公开、缺乏服务端防护机制、更易被修改与微调，开源模型通常更容易被“通用越狱”手段攻破，也更难在部署后修补漏洞。闭源模型则依赖更强的对齐策略、监控系统和动态更新机制，通常呈现更高的防护能力。因此，尽管开源系统快速逼近闭源前沿模型的能力水平，但在安全防护、滥用风险和治理难度上仍存在显著差距。

七、结论

研究显示，大模型性能正持续快速提升，部分能力已在特定任务上已超过人类专家，这为科研、医疗和生产力带来重大机遇。然而，同样的能力也可能降低从事网络攻击或敏感研究的门槛，带来新的安全风险。因此，在推动人工智能正向应用的同时，必须重视其“双重用途”特点并防范潜在滥用风险。

随着人工智能加速融入社会运行体系，各界面临的重要任务是：既要洞察长期技术演变方向，又要确保其当下的部署安全、可靠，并符合人类意图。这要求安全防护与能力发展同步推进，通过严格、独立的评估机制追踪新风险，并加强政府、产业和学术界合作，共同解决人工智能安全领域的关键问题。

（本文内容系“启元洞见”公众号原创编译，转载时请务必标明来源及作者）

参考来源：英国人工智能安全研究所（UKAISI）

参考题目：Frontier AI Trends Report

声明：本文来自启元洞见，版权归作者所有。文章内容仅代表作者独立观点，不代表安全内参立场，转载目的在于传递更多信息。如有侵权，请联系 anquanneican@163.com。

英国人工智能安全研究所报告：前沿人工智能风险、影响和展望

欧洲网络与信息安全局发布《网络安全市场分析框架v3.0》

美国政府问责局发布报告：未来十年三大前沿科技趋势