人工智能网络挑战赛(AIxCC)不仅是一场技术竞赛,更是全球网络安全防御范式转移的里程碑。自 2016 年 DARPA 举办 Cyber Grand Challenge(CGC) 比赛以来,自动化攻防技术虽然取得了一定进展,但始终受限于传统程序分析技术(如符号执行、污点分析)的可扩展性瓶颈。

随着大语言模型(LLM)的爆发,DARPA 敏锐地捕捉到了将生成式人工智能与传统形式化方法结合的契机,旨在攻克困扰行业数十年的核心难题:如何以机器的速度和规模,自动发现并修复关键基础设施软件中的漏洞。AIxCC 旨在证明,通过构建“网络推理系统”(Cyber Reasoning Systems, CRS),可以将漏洞修复周期从“数月”压缩至“分钟”级,从而根本性地改变攻防的时间维度。

AIxCC 分为两个赛段,即 2024 年的半决赛和 2025 年的决赛:
半决赛(2024 年 8 月):42 支队伍在 DEF CON 32 上角逐,最终 7 支队伍脱颖而出,每队获得 200 万美元的研发资金以备战决赛。
决赛(2025 年 8 月):决赛在 DEF CON 33 期间举行,环境更为严苛。系统被置于完全隔离的环境中运行,参赛团队在比赛开始后无法对系统进行任何干预。
半决赛 | 决赛 | 提升幅度 | |
漏洞检出 | 37% | 77%(54个) | 超过2倍 |
漏洞修复 | 25% | 61%(43个) | 超过2倍 |
平均修复时间 | 数小时 | 45 分钟 | 显著缩短 |
与以往使用小型合成程序的 CTF 比赛不同,AIxCC 直接使用了支撑全球数字经济的真实开源软件作为靶场。2023 年 AIxCC 初创时,组织者雄心勃勃地想要测试多种编程语言编写的项目。然而经过多次考量和多轮反馈,最终只保留了与 OSS-Fuzz 兼容的 C 和 Java 项目,甚至 Linux 内核项目也被移除了。DARPA 在这些代码库中植入了七十个漏洞,基本涵盖了各类常见漏洞。参赛系统的任务不仅是发现这些漏洞,还要应对代码库中原本可能存在的、未知的 0day 漏洞。
决赛中,七支队伍的 CRS 系统在没有人类干预的情况下,成功发现了绝大多数的植入漏洞。更令人瞩目的是,系统发现了 18 个此前未知的 0day 漏洞(6 个C/C++ 漏洞和 12 个 Java 漏洞),并成功修复了其中的 11 个。这一结果打破了“AI 只能发现浅层模式漏洞”的质疑,证明了自动化系统已具备深入挖掘复杂逻辑漏洞的能力。

排名 | 队伍 | 机构背景 | 奖金 |
1 | Team Atlanta | 佐治亚理工, Samsung, KAIST, POSTECH | $400万 |
2 | Trail of Bits | Trail of Bits (商业安全公司) | $300万 |
3 | Theori | Theori (安全研究机构) | $150万 |
4 | All You Need Is A Fuzzing Brain | 德州农工大学等 | - |
5 | Shellphish | UCSB (加州大学圣巴巴拉分校) | - |
6 | 42-b3yond-6ug | 西北大学等 | - |
7 | Lacrosse | SIFT 等 | - |

此处不过多介绍每个队伍的详细架构设计,只简单介绍一下个人觉得有意思的点。他们都发布了大量相关的材料来进行详细介绍,值得一读。
① Atlanta 发现,直接要求 LLM“修复漏洞”往往效果不佳,需要进一步设计提示工程技术。在 Prompt 中强制 LLM 扮演特定角色,如“你是一位来自 Google DeepMind 的资深安全研究员”或“你是一位严谨的代码维护者”。实验表明,这种心理暗示能显著提升 LLM 生成代码的质量和安全性。甚至在表示“我会给你 200 美元的小费”后,大模型生成了更长、更详细的回答。
② Atlanta 的研究人员发现 80 亿参数级别的模型(如 GPT-4o-mini)在代码模式识别任务上往往优于超大模型。小模型足以理解代码结构,且更少出现“过度思考”导致的简单问题复杂化。
③ 与竞争对手大量使用昂贵的推理模型不同,Buttercup 坚持使用成本较低的非推理模型。Buttercup 在获得亚军的同时,将每分成本控制在惊人的 $181。这说明只要工程架构得当,无需天价算力也能实现顶级的自动化安全能力。
④ Buttercup 在自动修复方面表现卓越。比赛中,它成功生成并提交了一个长达 300 多行代码的补丁,成功修复了一个极度复杂的漏洞。这打破了“自动修复只能处理单行代码错误”的刻板印象,展示了 AI 系统处理复杂逻辑重构的潜力。
⑤ Theori 在使用纯静态分析不进行 PoV 验证的情况下,生成了三个正确的补丁,大模型对代码语义的理解是惊人的。并且 Theori 重度使用 Infer,但它的误报率约为 99.9%。
⑥ All You Need Is A Fuzzing Brain 构建的系统,其超过 90% 的代码都是 AI 辅助编写的。该系统通过一百个虚拟机的高并发,发现了最多的 0day 漏洞。

CRS 完成任务的开销可以低到 152 美元,当防御成本大幅度降低时,防御者首次在经济曲线上具备了对抗攻击者的潜力。

主办方 DARPA 与 Anthropic、谷歌、微软和 OpenAI 合作举办这场挑战赛,力求推进网络安全与人工智能的产业融合和技术创新。成功进入半决赛的七支队伍,每队获得了 200 万美元的奖金。总决赛的前三名,分别得到 400 万美元、300 万美元和 150 万美元的奖金。合计 2250 万的奖金加上此前资助七个小微企业赛道的 700 万美元,再加上决赛后 DARPA 又追加的 140 万美元(奖励给进入决赛的其他参赛队伍,以帮助他们将其系统应用于现实世界的关键基础设施组织),DARPA 一口气拿出了 3090 万美元(约合 2.18 亿人民币)。
Anthropic、谷歌、微软和OpenAI 共同为本次比赛提供了技术支持,以及每个队伍价值35万美元的大型语言模型额度,确保参赛队伍拥有所需的计算能力。

按照现行的规则,在决赛后两周内获奖的队伍要按照开源促进协会(OSI)的许可将 CRS 作为开源软件发布。
https://archive.aicyberchallenge.com/https://team-atlanta.github.io/blog/post-afc/https://team-atlanta.github.io/artifacts/https://taesoo.kim/pubs/2025/kim:atlantis.pdfhttps://blog.trailofbits.com/2025/08/09/trail-of-bits-buttercup-wins-2nd-place-in-aixcc-challenge/https://ringzer0.training/countermeasure25-buttercup-and-darpas-ai-cyber-challenge/https://theori.io/blog/aixcc-and-roboduck-63447https://all-you-need-is-a-fuzzing-brain.github.io/https://b3yond.org/crs
DARPA AIxCC 2025 不仅是一场比赛的结束,更是一个时代的开始。它标志着网络安全防御从“人力密集型”的手工时代,正式迈入了“计算密集型”的智能自动化时代。
声明:本文来自威胁棱镜,版权归作者所有。文章内容仅代表作者独立观点,不代表安全内参立场,转载目的在于传递更多信息。如有侵权,请联系 anquanneican@163.com。