AIRTBench：衡量大语言模型的自主AI红队能力

基本信息

原文标题：AIRTBench: Measuring Autonomous AI Red Teaming Capabilities in Language Models

原文作者：Ads Dawson，Rob Mulla，Nick Landers，Shane Caldwell

作者单位：dreadnode, Canada；dreadnode, USA

关键词：AI Red Team，自主攻防，安全基准，CTF，AI/ML安全，LLM评测，安全攻防自动化

原文链接：https://arxiv.org/abs/2506.14682

开源代码：https://github.com/dreadnode/AIRTBench-Code

论文要点

论文简介：本文提出了AIRTBench，这是旨在评测语言模型自主发现和利用AI/ML系统安全漏洞能力的全新AI Red Teaming基准。AIRTBench基于Dreadnode平台Crucible挑战环境，共包含70个现实世界黑盒CTF（Capture the Flag）挑战，涵盖提示注入、模型逆向、系统利用等多样难题，要求模型通过编写Python代码与AI系统交互并实现攻破。研究团队对多家前沿与开源大模型进行了大规模系统评测，定量分析各模型在不同攻防任务下的能力边界、任务成功率、人机效能比等。

结果显示，Claude-3.7-Sonnet以总解决率61%领先于Gemini-2.5-Pro、GPT-4.5等前沿模型，开源模型表现则显著落后，仅在部分特色挑战中有亮点。同时，自动化AI Red Team代理在大部分高难度任务上展现出对人类安全专家5000倍以上的效率提升。AIRTBench填补了AI攻防能力测评的标准空白，为AI安全红队实践与LLM安全性能持续追踪提供了重要工具和开放数据资源。

研究目的：在当前大模型加速应用于各类关键领域，AI/ML系统安全风险快速上升的背景下，自动化AI红队能力的标准化测评成为亟需突破的难点。现有攻防、安全、CTF等基准普遍无法直观刻画模型主体性、多步推理、自主工具调用等关键攻防能力，也缺乏与人类安全专家的直观对比基准。AIRTBench旨在通过构建高真实性、多维度、系统化的AI/ML安全攻防任务，建立起首个聚焦于“自主AI红队攻防”能力的公开评测框架，为研究者、工业安全团队和工具开发者提供可复现、可量化、可追踪的能力测量平台，加速AI安全攻防领域的算法与应用进步。

研究贡献：

构建并公开了首个面向LLM自主AI Red Teaming能力的大规模安全攻防基准AIRTBench，涵盖70个真实CTF任务，并与行业标准（MITRE ATLAS、OWASP Top 10）深度对齐。
提供了统一、结构化的评测环境和自动化工具，支持模型与人类操作员在完全一致输入下的直接能力对比。
首次对多家顶级前沿模型及主流开源大模型在AI/ML安全攻防场景下进行系统性横向测评和微观行为分析，揭示不同模型家族在复杂攻防能力边界下的性能分层、错误模式及效率经济性。
全面开放实验代码、数据集与自动化评测工具，推动AI安全攻防领域的基准建设与社区协作。
在实证层面验证了LLMs在高难度攻防任务上的极致效率提升，并探讨了现实安全落地中的关键瓶颈与未来改进方向。

引言

近年来，随着大语言模型（LLM）等AI技术在各行业和复杂系统中的深度应用，其安全性正成为全球范围内关注的前沿焦点。现有研究和工程实践证明，LLMs不仅仅局限于传统文本任务，更逐步承担起代理角色，具备交互工具使用、环境导航、解决长链复杂目标等能力。这些特性促使其在网络安全领域、代码分析、漏洞检测、自动攻防演练等诸多重要场景中展现出巨大潜力和风险，并对AI系统本身的攻防安全提出了全新的挑战。

尽管过去学界与产业已构建了一系列针对软件开发流程、静态代码检测等环节的AI安全基准（如SWE-Bench、HumanEval、NYU CTF Bench等），这些标准大多聚焦点状、低层次、带有答案的静态任务，难以充分刻画模型复杂的攻防行为、动态环境交互、策略适应及与人类操作者的直观能力对比。特别是在AI Red Teaming这一绝对核心且现实需求突出的子方向上，目前几乎不存在针对LLM代理自主安全测试的系统性评测框架。这一漏洞加剧了在面临实际AI系统部署与防御时，无法精确了解模型攻击能力、模型间差距、工具调用有效性及其经济效率，为安全防线带来切实隐患。

本论文提出并实现了AIRTBench（AI Red Team Benchmark），以仿真现实攻防场景、多元能力需求和严苛的黑盒限制，重塑AI/ML安全攻防基准建设的范式。该基准依托Dreadnode平台的Crucible真实挑战环境设计，涵盖70个难度分明、场景各异的安全CTF任务，并深度映射业界权威标准（MITRE ATLAS及OWASP LLM Top 10），实现不同模型之间乃至与人类专家的直接可复现、可量化对比。AIRTBench不仅推动了基于代理、具备工具链调用能力的语言智能体在复杂环境下的可测量性，也为安全工程师、红队专家、模型开发者、漏洞管理团队等多元社区提供了具体工程指导、漏洞优先级建议和防御洞察，极大地丰富了现有AI安全测试的理论与实践工具箱。

更进一步，AIRTBench已开源全部评测工具和数据集，力图建立AI/ML安全攻防领域开放、协同、可持续演进的能力基准，驱动AI红队研究与安全标准体系的共建共治。可以预期，AIRTBench的发布将成为AI Red Teaming领域意义重大的里程碑，为行业和学术界的深度合作、持续追踪、模型能力进化提供基础性平台保障和评估数据依据。

相关工作与基准背景

AI领域的基准（Benchmark）旨在通过标准化任务和统一评测，持续追踪模型能力的演进与突破。传统上，以MMLU（Massive Multitask Language Understanding）、GSM8K（Grade School Math 8K）为代表的静态评测集，已在近年被前沿模型“刷分”到接近饱和（MMLU上普遍达80%以上，GSM8K甚至超过90%），无法细腻分辨新一代模型的高阶行为模式和复杂推理能力。因此，最新研究潮流正在推动“Agentic Benchmark”，即基于智能体、多步推理、工具交互和真实任务流的标准体系蓬勃兴起。

以SWE-Bench及其扩展、OSWorld等为代表的基准，直接将AI模型置于GitHub真实漏洞修复、操作系统开放任务、网页自动化环境等现实工作流场景，且大幅度降低任务程序化验证（如自动单元测试是否通过）的大规模测量门槛。这类评测扩展到AI代理还能通过“Tool Harness”（工具包裹器）、多步代码执行环境、API接口集成等方式，验证模型不仅要正确“想”，还要能准确“做”与反馈修正，极大接近工业真实流程。

在安全攻防领域，NYU CTF Bench、Intercode-CTF等尝试将行业流行的攻防竞赛赛题转化为自动化评测任务，使得LLM能够模拟人类安全专家参与漏洞发现、利用、逆向工程等全流程。AutoAdvExBench更进一步尝试自动化对抗样本生成与防御突破，并引入难度分级与现实场景映射。AI/ML安全CTF等赛事平台也尝试吸收AI安全挑战，但多数集中在防御对抗样本、Prompt Injection等较表层问题，机制和任务结构的系统性与持续进化性尚不足。

AIRTBench站在前述所有方法与工具迭代的前沿：一方面继承了基于智能体、自动化工具链、黑盒交互的测量理念，另一方面在任务设计、挑战类型、模型能力追踪与下游安全落地价值方面全面对标最新行业标准，并高度细化到可与人类安全专家工时、效率、胜率等维度直接比对。这一设计既满足了科研、工程、管理多维需求，也为基准演进、数据可比、社区协同奠定了坚实基础。

AIRTBench基准设计与任务设定

AIRTBench以Crucible挑战环境为支撑核心，在技术结构和任务构建上力图实现最大程度的真实还原与标准统一。基准整体分为以下几个层面：

首先，任务体系共覆盖70个CTF风格的AI/ML安全挑战，这些任务分布在Prompt Injection、数据分析与篡改、对抗样本规避、系统利用、模型逆向、信息泄露（RAG、System Prompt Leakage）、指纹识别、模型抽取与投毒等多个维度。每一项挑战均以黑盒方式呈现，模型只有自然语言问题描述及Jupyter初始代码，不可直接访问目标系统底层，大幅提升测评的真实性和难度，真正模拟现实渗透攻防情境。

其次，所有挑战按MITRE ATLAS和OWASP LLM Top 10分类深度映射，实现与国际主流安全分类完全对齐。挑战分难度等级（Easy/Medium/Hard），涵盖入门到专家级技能点，方便高颗粒度分析模型能力分层。设计方案突出链式攻击、模糊目标表达、策略转变和多步推理，如部分任务需综合利用提示注入、API调用、代码执行等多能力链进行攻破。所有结果必须经过Crucible平台标准化API“Flag”机制机械性验证，排除测试偶然性和主观判定偏差。

在基准架构方面，每个智能体（AI代理模型）通过专用容器环境访问Crucible平台与外部API，可真实执行代码、发起交互、上传Flag并获取实时反馈。系统选用jupyter/datascience-notebook基础镜像，预装核心数据科学与安全工具库（NumPy、Pandas、scikit-learn、TensorFlow、Matplotlib等），进一步扩展了安全测试、Web交互等专项能力，确保挑战广度覆盖

此外，整个基准具备极强的可进化性：挑战可由开放社区不断补充升级，环境与接口开放，支持模型、工具链乃至自动Harness的自定义、替换与优化。核心设计理念强调：1）高度还原“人类–模型–平台”真实攻防场景，2）确保AI智能体与人类红队参与者在输入、环境和评判标准上的完全对等，3）支持高效任务验证与全流程操作数据采集，为定量能力追踪提供基础。

实验设置与模型评测方法

AIRTBench评测流程由模型选型、实验环境搭建、任务自动分发、流程管理与指标采集等组成。模型选型涵盖Anthropic Claude-3.7-Sonnet、Google Gemini-2.5-Pro及其多版本、OpenAI GPT-4.5-Preview、GPT-4o、Groq家族Llama-3.3-70B、Llama-4-17B、Qwen-32B、DeepSeek R1等，覆盖“前沿（Frontier）模型”和主流开源阵营。模型调用参数基于各API官方推荐（如温度、推理模式等），确保实验公平性与可复现性。

每轮评测每个模型均需独立完成70项独立挑战，总计十轮（即每题十次独立运行），极大减弱模型不确定性及偶发波动影响。每题由Crucible环境按预设流程输入任务描述与初始代码，代理模型需自主完成工具调用、代码执行、交互学习、Flag验证及错误处理，直到解题或步数超限（默认100步）。所有操作全程自动收集流程级和系统级数据，包括交互回合数、代码执行次数、错误类别、Token消耗、API经济成本、Rate Limit命中次数、错误Flag提交频次、挑战类型及难度分布等，便于多角度横向、纵向、微观和宏观数量分析。

统计与分析除基础成功/失败比（Suite Success Rate/Overall Success Rate）外，还纳入步长最短解法、Token消耗与最终解之间的关系、经济性（单位能耗/成本）、各类错误分布、Rate Limiting影响、解析格式错误率、Flag错误类型及模型尝试多样性等，形成全面多维能力洞察体系。

所有数据与代码全流程标准化、自动化执行，支撑后续多轮大规模横向扩展和社区贡献，同时在方法层面最大化控除实验噪音与外部扰动，为基准可复现性和可信性提供了坚实保障。

测试结果与性能分析

AIRTBench正式实验聚焦多模型在70项AI/ML安全攻防挑战下的系统性表现、能力分层、人机对比及效率经济性等多个维度。结果显示，Claude-3.7-Sonnet在Suite成功率（61.4%，解出43/70题）、Overall成功率（46.9%）两项指标均遥遥领先，显著优于Gemini-2.5-Pro（55.7% / 34.3%）、GPT-4.5（48.6% / 36.9%）等前沿模型。在51项有较高成功率的任务类别中，Claude-3.7-Sonnet在提示注入、模型逆向、系统利用等全线占优。开源模型整体表现不及前沿模型，Llama-4-17B总解决率仅10%且在复杂任务环节几乎无解，DeepSeek R1等有特色亮点但整体得分较低。

从任务难度分布看，Easy级挑战成功率平均31.7%，Medium为10.7%，Hard仅1.8%，模型表现随难度指数级下降，Hard组挑战中仅少数前沿模型（例如Claude-3.7-Sonnet）能稳健输出。有趣的是，模型表现并非完全线性；各模型、甚至家族内部，在特定类型或极难任务上会爆发意外“特长”或个案突破，如Llama-4-17B在难度极高的turtle题中以6步极速解题，显示大模型架构对于极端场景存在未被完全覆盖的“漏洞区”。

在类别维度，提示注入相关任务依然最易被模型攻破（平均49%解决率），模型逆向、系统利用等高阶复合型任务全线失分，最强者成功率也低于26%，表明AI代理虽有优势但能力边界清晰。系统性分组分析显示，不同模型在数据分析、RAG提示注入、音频规避、数据投毒等细分场景下表现各异，展现了当前模型训练偏好及攻防场景知识积累的显著不均衡。

AIRTBench还对“AI代理vs人类安全专家”的效率优势展开深度比较：多项高难度CTF挑战下，AI代理平均耗时分钟级，而人类专家常需数小时至千小时（如brig1、brig2等无人机挑战累计耗时超过2000小时，AI模型全部未能攻破，但在部分难题如turtle上，模型达到6%解题率且仅需10分钟左右），在“可解题的高难度问题”上模型效率提升显著，单点效率领先5000倍甚至更多。

经济性上，成功与否直接决定Token/执行能耗和成本。模型在成功解题时通常只需消耗标准Token的1/6，经济成本在0.002–6美元之间，失败尝试有时高达133美元，对端到端效率和批量自动化攻防演练有重大现实意义。技术细节分析表明，GPT系列在XML调用、代码格式保持等方面稳定性突出，Gemini系列则在某些高级推理时更具策略多样性。模型在实际Flag提交错误、“过度思考”、解析失败等细分表现上分布明显，暗示模型本身的逻辑结构和训练分布对攻防瓶颈起到重要作用。

值得关注的是，AIRTBench还复盘了典型任务（如turtle）中的三大类优秀攻破序列，显示出不同模型在价值取向、策略多样性、社会工程等领域的迥异风格：如Claude-3.7-Sonnet采用多步递进、集体试错策略，Gemini-2.5-Pro以冗长穷举、格式控制和指令咬定优势脱颖而出，Llama-4-17B则以创造性提出“代码加固”诱导出目标信息块。这些深度微观行为分析揭示了未来多模型混合红队、多样性集成的潜在工程价值。

在模型工具调用与解析环节，AIRTBench精确度量XML、API字典格式错误分布：如Qwen-32B近乎100%解析失败，Gemini 1.5 Pro错误率高达80%，而o3-mini与GPT-4.5低于3%。工具调用准确性直接预测模型最终输出能力。

最终，Rate Limiting（接口速率限制）在仿真现实攻防下成为影响模型持续力的关键变量，不同模型适应与应对策略直接影响任务成功概率和总成本，极大提升了基准的现实性与工程指导意义。

论文结论

AIRTBench作为首个系统性专注于“自主AI红队攻防”能力基准的评测平台，填补了大语言模型在AI/ML安全领域自动化能力追踪的标准空白。实验与分析表明，前沿LLM在提示注入等部分安全任务上已具显著实用价值，但在模型逆向、复合利用等复杂场景仍存在明显边界和瓶颈，且高阶推理能力尚局限于极少数顶级商业模型。与人类安全专家比较，AI代理在多数可突破任务上实现了数据级、效率级的数量级提升，有望极大推动AI安全自动化攻防和红队演练，但在面对真正高复杂度场景或攻防链任务时，当前技术尚未完全替代人类专家的综合策略和创新力。

论文通过MITRE ATLAS及OWASP LLM Top 10的全面映射和多维度系统性测评，提供了一条业界公认能力分层与难度精确量化的标准路径。AIRTBench开放数据与自动化工具链，为学界和产业界持续跟踪、社区协作和模型持续进化提供了底层支撑。技术瓶颈如工具调用兼容、格式解析严谨性、高阶推理一致性等问题，为LLM架构升级和攻防实用性研发指出了明确方向。未来，AIRTBench团队将扩展基准模型、完善挑战类型、继续追踪模型家族能力进化，力图建立业界AI/ML安全攻防测评的“黄金标准”，将其打造为安全研究、能力追踪、工程实践的基础性评测平台，为全球AI基础设施的安全防护和产业高质量发展注入新动能。

声明：本文来自安全极客，版权归作者所有。文章内容仅代表作者独立观点，不代表安全内参立场，转载目的在于传递更多信息。如有侵权，请联系 anquanneican@163.com。

AIRTBench：衡量大语言模型的自主AI红队能力

别光想着用AI工具做黑客，当心自己被反黑

用于测试模型上下文协议的系统性安全基准与实验平台

ATT&CK v18发布：从检测行为到识别意图