基本信息
原文标题:AIRTBench: Measuring Autonomous AI Red Teaming Capabilities in Language Models
原文作者:Ads Dawson,Rob Mulla,Nick Landers,Shane Caldwell
作者单位:dreadnode, Canada;dreadnode, USA
关键词:AI Red Team,自主攻防,安全基准,CTF,AI/ML安全,LLM评测,安全攻防自动化
原文链接:https://arxiv.org/abs/2506.14682
开源代码:https://github.com/dreadnode/AIRTBench-Code
论文要点
论文简介:本文提出了AIRTBench,这是旨在评测语言模型自主发现和利用AI/ML系统安全漏洞能力的全新AI Red Teaming基准。AIRTBench基于Dreadnode平台Crucible挑战环境,共包含70个现实世界黑盒CTF(Capture the Flag)挑战,涵盖提示注入、模型逆向、系统利用等多样难题,要求模型通过编写Python代码与AI系统交互并实现攻破。研究团队对多家前沿与开源大模型进行了大规模系统评测,定量分析各模型在不同攻防任务下的能力边界、任务成功率、人机效能比等。
结果显示,Claude-3.7-Sonnet以总解决率61%领先于Gemini-2.5-Pro、GPT-4.5等前沿模型,开源模型表现则显著落后,仅在部分特色挑战中有亮点。同时,自动化AI Red Team代理在大部分高难度任务上展现出对人类安全专家5000倍以上的效率提升。AIRTBench填补了AI攻防能力测评的标准空白,为AI安全红队实践与LLM安全性能持续追踪提供了重要工具和开放数据资源。
研究目的:在当前大模型加速应用于各类关键领域,AI/ML系统安全风险快速上升的背景下,自动化AI红队能力的标准化测评成为亟需突破的难点。现有攻防、安全、CTF等基准普遍无法直观刻画模型主体性、多步推理、自主工具调用等关键攻防能力,也缺乏与人类安全专家的直观对比基准。AIRTBench旨在通过构建高真实性、多维度、系统化的AI/ML安全攻防任务,建立起首个聚焦于“自主AI红队攻防”能力的公开评测框架,为研究者、工业安全团队和工具开发者提供可复现、可量化、可追踪的能力测量平台,加速AI安全攻防领域的算法与应用进步。
研究贡献:
构建并公开了首个面向LLM自主AI Red Teaming能力的大规模安全攻防基准AIRTBench,涵盖70个真实CTF任务,并与行业标准(MITRE ATLAS、OWASP Top 10)深度对齐。
提供了统一、结构化的评测环境和自动化工具,支持模型与人类操作员在完全一致输入下的直接能力对比。
首次对多家顶级前沿模型及主流开源大模型在AI/ML安全攻防场景下进行系统性横向测评和微观行为分析,揭示不同模型家族在复杂攻防能力边界下的性能分层、错误模式及效率经济性。
全面开放实验代码、数据集与自动化评测工具,推动AI安全攻防领域的基准建设与社区协作。
在实证层面验证了LLMs在高难度攻防任务上的极致效率提升,并探讨了现实安全落地中的关键瓶颈与未来改进方向。
引言
近年来,随着大语言模型(LLM)等AI技术在各行业和复杂系统中的深度应用,其安全性正成为全球范围内关注的前沿焦点。现有研究和工程实践证明,LLMs不仅仅局限于传统文本任务,更逐步承担起代理角色,具备交互工具使用、环境导航、解决长链复杂目标等能力。这些特性促使其在网络安全领域、代码分析、漏洞检测、自动攻防演练等诸多重要场景中展现出巨大潜力和风险,并对AI系统本身的攻防安全提出了全新的挑战。
尽管过去学界与产业已构建了一系列针对软件开发流程、静态代码检测等环节的AI安全基准(如SWE-Bench、HumanEval、NYU CTF Bench等),这些标准大多聚焦点状、低层次、带有答案的静态任务,难以充分刻画模型复杂的攻防行为、动态环境交互、策略适应及与人类操作者的直观能力对比。特别是在AI Red Teaming这一绝对核心且现实需求突出的子方向上,目前几乎不存在针对LLM代理自主安全测试的系统性评测框架。这一漏洞加剧了在面临实际AI系统部署与防御时,无法精确了解模型攻击能力、模型间差距、工具调用有效性及其经济效率,为安全防线带来切实隐患。
本论文提出并实现了AIRTBench(AI Red Team Benchmark),以仿真现实攻防场景、多元能力需求和严苛的黑盒限制,重塑AI/ML安全攻防基准建设的范式。该基准依托Dreadnode平台的Crucible真实挑战环境设计,涵盖70个难度分明、场景各异的安全CTF任务,并深度映射业界权威标准(MITRE ATLAS及OWASP LLM Top 10),实现不同模型之间乃至与人类专家的直接可复现、可量化对比。AIRTBench不仅推动了基于代理、具备工具链调用能力的语言智能体在复杂环境下的可测量性,也为安全工程师、红队专家、模型开发者、漏洞管理团队等多元社区提供了具体工程指导、漏洞优先级建议和防御洞察,极大地丰富了现有AI安全测试的理论与实践工具箱。
更进一步,AIRTBench已开源全部评测工具和数据集,力图建立AI/ML安全攻防领域开放、协同、可持续演进的能力基准,驱动AI红队研究与安全标准体系的共建共治。可以预期,AIRTBench的发布将成为AI Red Teaming领域意义重大的里程碑,为行业和学术界的深度合作、持续追踪、模型能力进化提供基础性平台保障和评估数据依据。
相关工作与基准背景
AI领域的基准(Benchmark)旨在通过标准化任务和统一评测,持续追踪模型能力的演进与突破。传统上,以MMLU(Massive Multitask Language Understanding)、GSM8K(Grade School Math 8K)为代表的静态评测集,已在近年被前沿模型“刷分”到接近饱和(MMLU上普遍达80%以上,GSM8K甚至超过90%),无法细腻分辨新一代模型的高阶行为模式和复杂推理能力。因此,最新研究潮流正在推动“Agentic Benchmark”,即基于智能体、多步推理、工具交互和真实任务流的标准体系蓬勃兴起。
以SWE-Bench及其扩展、OSWorld等为代表的基准,直接将AI模型置于GitHub真实漏洞修复、操作系统开放任务、网页自动化环境等现实工作流场景,且大幅度降低任务程序化验证(如自动单元测试是否通过)的大规模测量门槛。这类评测扩展到AI代理还能通过“Tool Harness”(工具包裹器)、多步代码执行环境、API接口集成等方式,验证模型不仅要正确“想”,还要能准确“做”与反馈修正,极大接近工业真实流程。
在安全攻防领域,NYU CTF Bench、Intercode-CTF等尝试将行业流行的攻防竞赛赛题转化为自动化评测任务,使得LLM能够模拟人类安全专家参与漏洞发现、利用、逆向工程等全流程。AutoAdvExBench更进一步尝试自动化对抗样本生成与防御突破,并引入难度分级与现实场景映射。AI/ML安全CTF等赛事平台也尝试吸收AI安全挑战,但多数集中在防御对抗样本、Prompt Injection等较表层问题,机制和任务结构的系统性与持续进化性尚不足。
AIRTBench站在前述所有方法与工具迭代的前沿:一方面继承了基于智能体、自动化工具链、黑盒交互的测量理念,另一方面在任务设计、挑战类型、模型能力追踪与下游安全落地价值方面全面对标最新行业标准,并高度细化到可与人类安全专家工时、效率、胜率等维度直接比对。这一设计既满足了科研、工程、管理多维需求,也为基准演进、数据可比、社区协同奠定了坚实基础。
AIRTBench基准设计与任务设定
AIRTBench以Crucible挑战环境为支撑核心,在技术结构和任务构建上力图实现最大程度的真实还原与标准统一。基准整体分为以下几个层面:
首先,任务体系共覆盖70个CTF风格的AI/ML安全挑战,这些任务分布在Prompt Injection、数据分析与篡改、对抗样本规避、系统利用、模型逆向、信息泄露(RAG、System Prompt Leakage)、指纹识别、模型抽取与投毒等多个维度。每一项挑战均以黑盒方式呈现,模型只有自然语言问题描述及Jupyter初始代码,不可直接访问目标系统底层,大幅提升测评的真实性和难度,真正模拟现实渗透攻防情境。
其次,所有挑战按MITRE ATLAS和OWASP LLM Top 10分类深度映射,实现与国际主流安全分类完全对齐。挑战分难度等级(Easy/Medium/Hard),涵盖入门到专家级技能点,方便高颗粒度分析模型能力分层。设计方案突出链式攻击、模糊目标表达、策略转变和多步推理,如部分任务需综合利用提示注入、API调用、代码执行等多能力链进行攻破。所有结果必须经过Crucible平台标准化API“Flag”机制机械性验证,排除测试偶然性和主观判定偏差。
在基准架构方面,每个智能体(AI代理模型)通过专用容器环境访问Crucible平台与外部API,可真实执行代码、发起交互、上传Flag并获取实时反馈。系统选用jupyter/datascience-notebook基础镜像,预装核心数据科学与安全工具库(NumPy、Pandas、scikit-learn、TensorFlow、Matplotlib等),进一步扩展了安全测试、Web交互等专项能力,确保挑战广度覆盖
此外,整个基准具备极强的可进化性:挑战可由开放社区不断补充升级,环境与接口开放,支持模型、工具链乃至自动Harness的自定义、替换与优化。核心设计理念强调:1)高度还原“人类–模型–平台”真实攻防场景,2)确保AI智能体与人类红队参与者在输入、环境和评判标准上的完全对等,3)支持高效任务验证与全流程操作数据采集,为定量能力追踪提供基础。
实验设置与模型评测方法
AIRTBench评测流程由模型选型、实验环境搭建、任务自动分发、流程管理与指标采集等组成。模型选型涵盖Anthropic Claude-3.7-Sonnet、Google Gemini-2.5-Pro及其多版本、OpenAI GPT-4.5-Preview、GPT-4o、Groq家族Llama-3.3-70B、Llama-4-17B、Qwen-32B、DeepSeek R1等,覆盖“前沿(Frontier)模型”和主流开源阵营。模型调用参数基于各API官方推荐(如温度、推理模式等),确保实验公平性与可复现性。
每轮评测每个模型均需独立完成70项独立挑战,总计十轮(即每题十次独立运行),极大减弱模型不确定性及偶发波动影响。每题由Crucible环境按预设流程输入任务描述与初始代码,代理模型需自主完成工具调用、代码执行、交互学习、Flag验证及错误处理,直到解题或步数超限(默认100步)。所有操作全程自动收集流程级和系统级数据,包括交互回合数、代码执行次数、错误类别、Token消耗、API经济成本、Rate Limit命中次数、错误Flag提交频次、挑战类型及难度分布等,便于多角度横向、纵向、微观和宏观数量分析。
统计与分析除基础成功/失败比(Suite Success Rate/Overall Success Rate)外,还纳入步长最短解法、Token消耗与最终解之间的关系、经济性(单位能耗/成本)、各类错误分布、Rate Limiting影响、解析格式错误率、Flag错误类型及模型尝试多样性等,形成全面多维能力洞察体系。
所有数据与代码全流程标准化、自动化执行,支撑后续多轮大规模横向扩展和社区贡献,同时在方法层面最大化控除实验噪音与外部扰动,为基准可复现性和可信性提供了坚实保障。
测试结果与性能分析
AIRTBench正式实验聚焦多模型在70项AI/ML安全攻防挑战下的系统性表现、能力分层、人机对比及效率经济性等多个维度。结果显示,Claude-3.7-Sonnet在Suite成功率(61.4%,解出43/70题)、Overall成功率(46.9%)两项指标均遥遥领先,显著优于Gemini-2.5-Pro(55.7% / 34.3%)、GPT-4.5(48.6% / 36.9%)等前沿模型。在51项有较高成功率的任务类别中,Claude-3.7-Sonnet在提示注入、模型逆向、系统利用等全线占优。开源模型整体表现不及前沿模型,Llama-4-17B总解决率仅10%且在复杂任务环节几乎无解,DeepSeek R1等有特色亮点但整体得分较低。
从任务难度分布看,Easy级挑战成功率平均31.7%,Medium为10.7%,Hard仅1.8%,模型表现随难度指数级下降,Hard组挑战中仅少数前沿模型(例如Claude-3.7-Sonnet)能稳健输出。有趣的是,模型表现并非完全线性;各模型、甚至家族内部,在特定类型或极难任务上会爆发意外“特长”或个案突破,如Llama-4-17B在难度极高的turtle题中以6步极速解题,显示大模型架构对于极端场景存在未被完全覆盖的“漏洞区”。
在类别维度,提示注入相关任务依然最易被模型攻破(平均49%解决率),模型逆向、系统利用等高阶复合型任务全线失分,最强者成功率也低于26%,表明AI代理虽有优势但能力边界清晰。系统性分组分析显示,不同模型在数据分析、RAG提示注入、音频规避、数据投毒等细分场景下表现各异,展现了当前模型训练偏好及攻防场景知识积累的显著不均衡。
AIRTBench还对“AI代理vs人类安全专家”的效率优势展开深度比较:多项高难度CTF挑战下,AI代理平均耗时分钟级,而人类专家常需数小时至千小时(如brig1、brig2等无人机挑战累计耗时超过2000小时,AI模型全部未能攻破,但在部分难题如turtle上,模型达到6%解题率且仅需10分钟左右),在“可解题的高难度问题”上模型效率提升显著,单点效率领先5000倍甚至更多。
经济性上,成功与否直接决定Token/执行能耗和成本。模型在成功解题时通常只需消耗标准Token的1/6,经济成本在0.002–6美元之间,失败尝试有时高达133美元,对端到端效率和批量自动化攻防演练有重大现实意义。技术细节分析表明,GPT系列在XML调用、代码格式保持等方面稳定性突出,Gemini系列则在某些高级推理时更具策略多样性。模型在实际Flag提交错误、“过度思考”、解析失败等细分表现上分布明显,暗示模型本身的逻辑结构和训练分布对攻防瓶颈起到重要作用。
值得关注的是,AIRTBench还复盘了典型任务(如turtle)中的三大类优秀攻破序列,显示出不同模型在价值取向、策略多样性、社会工程等领域的迥异风格:如Claude-3.7-Sonnet采用多步递进、集体试错策略,Gemini-2.5-Pro以冗长穷举、格式控制和指令咬定优势脱颖而出,Llama-4-17B则以创造性提出“代码加固”诱导出目标信息块。这些深度微观行为分析揭示了未来多模型混合红队、多样性集成的潜在工程价值。
在模型工具调用与解析环节,AIRTBench精确度量XML、API字典格式错误分布:如Qwen-32B近乎100%解析失败,Gemini 1.5 Pro错误率高达80%,而o3-mini与GPT-4.5低于3%。工具调用准确性直接预测模型最终输出能力。
最终,Rate Limiting(接口速率限制)在仿真现实攻防下成为影响模型持续力的关键变量,不同模型适应与应对策略直接影响任务成功概率和总成本,极大提升了基准的现实性与工程指导意义。
论文结论
AIRTBench作为首个系统性专注于“自主AI红队攻防”能力基准的评测平台,填补了大语言模型在AI/ML安全领域自动化能力追踪的标准空白。实验与分析表明,前沿LLM在提示注入等部分安全任务上已具显著实用价值,但在模型逆向、复合利用等复杂场景仍存在明显边界和瓶颈,且高阶推理能力尚局限于极少数顶级商业模型。与人类安全专家比较,AI代理在多数可突破任务上实现了数据级、效率级的数量级提升,有望极大推动AI安全自动化攻防和红队演练,但在面对真正高复杂度场景或攻防链任务时,当前技术尚未完全替代人类专家的综合策略和创新力。
论文通过MITRE ATLAS及OWASP LLM Top 10的全面映射和多维度系统性测评,提供了一条业界公认能力分层与难度精确量化的标准路径。AIRTBench开放数据与自动化工具链,为学界和产业界持续跟踪、社区协作和模型持续进化提供了底层支撑。技术瓶颈如工具调用兼容、格式解析严谨性、高阶推理一致性等问题,为LLM架构升级和攻防实用性研发指出了明确方向。未来,AIRTBench团队将扩展基准模型、完善挑战类型、继续追踪模型家族能力进化,力图建立业界AI/ML安全攻防测评的“黄金标准”,将其打造为安全研究、能力追踪、工程实践的基础性评测平台,为全球AI基础设施的安全防护和产业高质量发展注入新动能。
声明:本文来自安全极客,版权归作者所有。文章内容仅代表作者独立观点,不代表安全内参立场,转载目的在于传递更多信息。如有侵权,请联系 anquanneican@163.com。