近期,Firefox的漏洞数量,掀起了轩然大波。
单月修复 423 个漏洞,连潜藏 15 年的历史老漏洞,都挖了出来。
外界最初都将这波漏洞发现能力爆发,归功于 Anthropic 的Mythos。
但 Mozilla 资深工程师Brian Grinstead 在一档播客中点明:模型只占一半功劳。
真正的核心是他们自研的 Agent 框架 ——AI 直接接入工程系统,读代码、跑测试、复现崩溃、验证漏洞全流程自动化。

历史漏洞被 AI 激活,安全攻防进入双边 AI 时代
Firefox 作为兼容二十年网页标准的浏览器,代码规模达数千万行。
上万个源文件,大量内存安全问题隐藏在 XSLT 解析、HTML 元素渲染、DOM 节点内存管理等深层路径中。
人工审计受限于精力与成本,很难覆盖所有边缘场景,部分漏洞甚至在代码里潜藏了 15 年,历经多轮排查都未被发现。

此前行业普遍担忧:攻击者会借助 AI 批量挖掘漏洞,大幅放大安全风险。
但 Mozilla 的实践给出了防守端的答案:
只要把 AI Agent 接入成熟的工程体系,就能实现从扫描、验证到修复的全流程自动化,主动批量清除存量风险。
那具体要怎么落地?
直接让 Agent 扫描整个代码库显然不现实 —— 成本高、效率低。
Mozilla 给出的第一步答案,是先给目标做优先级排序。
优先级排序:别让AI漫无目的乱扫
Mozilla没有把Agent丢进Firefox整个仓库,然后祈祷奇迹发生。
Brian说,这根本不现实。
Firefox太大了。
上下文不够,成本也不允许。
所以第一步是优先级排序。
他们做了一个大模型裁判。
这个裁判会像安全专家一样看文件。
提示词核心内容是:
你是一名安全专家。以下是我们要审查的不同类型文件:C++文件、IPDL 文件、Web IDL 文件。以下是每种文件的详细信息……现在,请给出两个评分。第一个评分是:你认为存在内存安全问题的可能性有多大?第二个评分是:从网页端访问此内容的难易程度如何?

它要给两个分。
第一,这个文件里出现内存安全问题的可能性。
第二,这段代码被恶意网页触达的难易度。
这两个分,直接决定Agent往哪里打。
比如document.cpp,文件巨大,又直接被网页内容访问。
这种目标,就应该优先进入扫描队列。
AI不是无限的,也不是免费的。
你不能没有优先级。
越是大代码仓库,越要先学会给战场排序。
狩猎:让Agent死磕目标
第二步是狩猎。
Mozilla把Agent放进一个受限问题里。
给它Firefox代码库副本,给它目标文件,给它工具,再告诉它:我们知道这里有安全漏洞,你必须找到。
它开始推理攻击路径。
从Web IDL找到C++实现。
从网页输入构造状态。
生成HTML测试用例。
用浏览器评估器跑特殊Firefox构建。
借助AddressSanitizer判断有没有内存安全问题。
失败就重试。

legend元素案例里,它试了14次。
前13次失败。
第14次命中。
这就是Agent最不像人的地方。
人类面对第13次失败,可能已经开始怀疑方向。
Agent只会继续尝试。
在安全领域,这种不知疲倦的的努力,就是新的武器。
靠不知疲倦的迭代,Agent 能挖出很多人类找不到的深层漏洞,但目标导向的 Agent 也会出现 “为了赢而作弊” 的问题。
要让结果真正可用,就必须补上验证。
验证:AI也会为了赢而作弊
但Mozilla没有天真到相信Agent的每一次结果。
Brian说,Agent会做很奇怪的事。
它可能设置真实用户不会开的测试偏好设置。
也可能修改代码,自己制造漏洞,再利用漏洞来完成目标。
所以第三步必须是验证。
Mozilla加了验证子Agent。
它负责检查主Agent的发现是不是真实漏洞。
检查复现条件是否合理。
检查Agent有没有作弊。
检查输出能不能进入后续流水线。

这一步,是AI安全工具从玩具走向生产的分水岭。
没有验证,Agent会把幻觉包装成成果。
有验证,Agent才可能成为工程系统的一部分。
修复:让AI提出补丁,但不把方向盘交出去
验证通过后,修复Agent会生成一个可信代码补丁。
系统应用补丁,重建Firefox,再跑原先触发崩溃的HTML测试用例。
如果崩溃没了,说明这个补丁至少对当前case有效。

但Mozilla没有让 AI 自动驾驶。
补丁和报告仍然进入标准漏洞处理流水线,由人类工程师审查。
Brian说,他们距离让Firefox这种规模和复杂度的项目自主开发还很远。
Mozilla仍然要求有人写代码、有人审查代码。
工程基建能力决定 AI 落地的真实上限
播客里用了一个说法:开发者体验团队的复仇。
过去,开发者工具、自动化、Fuzz、构建系统、漏洞处理流水线
这些东西常常被视为“基础设施成本”。
现在,它们突然变成Agent的武器库。
模型是可替换的组件,而沉淀完善的工程系统、设计合理的 Agent 工作流,才是真正难以复制的壁垒。
与其纠结模型够不够强,不如先问自己:我们的工程系统,做好被 Agent 调用的准备了吗?

参考资料:https://www.chatprd.ai/how-i-ai/how-mozilla-fixed-500-security-bugs-with-mythos https://www.lennysnewsletter.com/p/how-claude-mythos-found-a-15-year
声明:本文来自玄月调查小组,版权归作者所有。文章内容仅代表作者独立观点,不代表安全内参立场,转载目的在于传递更多信息。如有侵权,请联系 anquanneican@163.com。