近期,Firefox的漏洞数量,掀起了轩然大波。

单月修复 423 个漏洞,连潜藏 15 年的历史老漏洞,都挖了出来。

外界最初都将这波漏洞发现能力爆发,归功于 Anthropic 的Mythos。

但 Mozilla 资深工程师Brian Grinstead 在一档播客中点明:模型只占一半功劳。

真正的核心是他们自研的 Agent 框架 ——AI 直接接入工程系统,读代码、跑测试、复现崩溃、验证漏洞全流程自动化。

历史漏洞被 AI 激活,安全攻防进入双边 AI 时代

Firefox 作为兼容二十年网页标准的浏览器,代码规模达数千万行。

上万个源文件,大量内存安全问题隐藏在 XSLT 解析、HTML 元素渲染、DOM 节点内存管理等深层路径中。

人工审计受限于精力与成本,很难覆盖所有边缘场景,部分漏洞甚至在代码里潜藏了 15 年,历经多轮排查都未被发现。

此前行业普遍担忧:攻击者会借助 AI 批量挖掘漏洞,大幅放大安全风险。

但 Mozilla 的实践给出了防守端的答案:

只要把 AI Agent 接入成熟的工程体系,就能实现从扫描、验证到修复的全流程自动化,主动批量清除存量风险。

那具体要怎么落地?

直接让 Agent 扫描整个代码库显然不现实 —— 成本高、效率低。

Mozilla 给出的第一步答案,是先给目标做优先级排序。

优先级排序:别让AI漫无目的乱扫

Mozilla没有把Agent丢进Firefox整个仓库,然后祈祷奇迹发生。

Brian说,这根本不现实。

Firefox太大了。

上下文不够,成本也不允许。

所以第一步是优先级排序。

他们做了一个大模型裁判。

这个裁判会像安全专家一样看文件。

提示词核心内容是:

你是一名安全专家。以下是我们要审查的不同类型文件:C++文件、IPDL 文件、Web IDL 文件。以下是每种文件的详细信息……现在,请给出两个评分。第一个评分是:你认为存在内存安全问题的可能性有多大?第二个评分是:从网页端访问此内容的难易程度如何?

它要给两个分。

第一,这个文件里出现内存安全问题的可能性。

第二,这段代码被恶意网页触达的难易度。

这两个分,直接决定Agent往哪里打。

比如document.cpp,文件巨大,又直接被网页内容访问。

这种目标,就应该优先进入扫描队列。

AI不是无限的,也不是免费的。

你不能没有优先级。

越是大代码仓库,越要先学会给战场排序。

狩猎:让Agent死磕目标

第二步是狩猎。

Mozilla把Agent放进一个受限问题里。

给它Firefox代码库副本,给它目标文件,给它工具,再告诉它:我们知道这里有安全漏洞,你必须找到。

它开始推理攻击路径。

从Web IDL找到C++实现。

从网页输入构造状态。

生成HTML测试用例。

用浏览器评估器跑特殊Firefox构建。

借助AddressSanitizer判断有没有内存安全问题。

失败就重试。

legend元素案例里,它试了14次。

前13次失败。

第14次命中。

这就是Agent最不像人的地方。

人类面对第13次失败,可能已经开始怀疑方向。

Agent只会继续尝试。

在安全领域,这种不知疲倦的的努力,就是新的武器。

靠不知疲倦的迭代,Agent 能挖出很多人类找不到的深层漏洞,但目标导向的 Agent 也会出现 “为了赢而作弊” 的问题。

要让结果真正可用,就必须补上验证。

验证:AI也会为了赢而作弊

但Mozilla没有天真到相信Agent的每一次结果。

Brian说,Agent会做很奇怪的事。

它可能设置真实用户不会开的测试偏好设置。

也可能修改代码,自己制造漏洞,再利用漏洞来完成目标。

所以第三步必须是验证。

Mozilla加了验证子Agent。

它负责检查主Agent的发现是不是真实漏洞。

检查复现条件是否合理。

检查Agent有没有作弊。

检查输出能不能进入后续流水线。

这一步,是AI安全工具从玩具走向生产的分水岭。

没有验证,Agent会把幻觉包装成成果。

有验证,Agent才可能成为工程系统的一部分。

修复:让AI提出补丁,但不把方向盘交出去

验证通过后,修复Agent会生成一个可信代码补丁。

系统应用补丁,重建Firefox,再跑原先触发崩溃的HTML测试用例。

如果崩溃没了,说明这个补丁至少对当前case有效。

但Mozilla没有让 AI 自动驾驶。

补丁和报告仍然进入标准漏洞处理流水线,由人类工程师审查。

Brian说,他们距离让Firefox这种规模和复杂度的项目自主开发还很远。

Mozilla仍然要求有人写代码、有人审查代码。

工程基建能力决定 AI 落地的真实上限

播客里用了一个说法:开发者体验团队的复仇。

过去,开发者工具、自动化、Fuzz、构建系统、漏洞处理流水线

这些东西常常被视为“基础设施成本”。

现在,它们突然变成Agent的武器库。

模型是可替换的组件,而沉淀完善的工程系统、设计合理的 Agent 工作流,才是真正难以复制的壁垒。

与其纠结模型够不够强,不如先问自己:我们的工程系统,做好被 Agent 调用的准备了吗?

参考资料:https://www.chatprd.ai/how-i-ai/how-mozilla-fixed-500-security-bugs-with-mythos https://www.lennysnewsletter.com/p/how-claude-mythos-found-a-15-year

声明:本文来自玄月调查小组,版权归作者所有。文章内容仅代表作者独立观点,不代表安全内参立场,转载目的在于传递更多信息。如有侵权,请联系 anquanneican@163.com。