Mythos 封神了。

它把其他模型的漏洞挖掘能力,按在地上摩擦。

但一些场景。

它做的,还不如老模型。

封神碾压:白盒漏洞挖掘的绝对王者

XBOW 是一家利用AI进行自动化渗透测试的网络安全独角兽。

2025年,XBOW的Agent曾在HackerOne力压所有人类参赛者,登顶第一。

两个月前,Anthropic秘密邀请XBOW团队,参与Mythos的内测。

XBOW团队用一套内部基准系统,对Mythos进行了全方位的极限测试。

Mythos 直接碾压了所有现有模型。

相比Opus 4.6,漏报直接降低了42%。

当同时提供目标网站访问权限和源码时,漏报更是降低了55%。

这是一个恐怖的提升。

更恐怖的是,Mythos锁定漏洞的精准度,达到了前所未有的高度。

它能用更少的输出,更快地定位到问题的核心。

XBOW一位参与测试的专家直言:“这是我见过最接近‘直接去找漏洞’的AI。”

测试第一周,Mythos就在多款开源软件中,发现了大量此前从未被发现的新漏洞。

Mythos写代码的能力很强。

读代码的能力,确实也强到离谱。

致命短板:Mythos也有无法跨越的边界

需要提醒,

很多可利用的漏洞,并不出现在源码里。

它们藏在配置中。

藏在依赖里。

藏在部署方式中。

藏在安全组件的错误组合里。

可怕的是,即使是那些完全存在于源码中的漏洞。

只要剥夺Mythos访问实时站点的权限。

它的性能下降幅度,竟然比剥夺源码访问权限还要大。

不过,这不是 Mythos 独有的问题。

所有 AI 模型,都在这一关折戟。

只是 Mythos 受的伤根轻而已。

惊人反差:找漏洞天下第一,判断能力不如老模型

就在所有人都以为,AI安全的新时代已经彻底到来时。

XBOW还是给大家浇了一盆冷水。

Mythos的判断能力不如老模型。

在命令安全基准测试中,Mythos的准确率,只有77.8%。

而作为对比,三个月前的Opus 4.6,准确率是81.2%。

连更轻量的Haiku 4.5,在优化提示词后,都能达到90.1%的准确率。

最会找漏洞的AI,竟然分不清命令是否安全。

Mythos会死守规则的字面意思。忽略规则的精神。

而Opus 4.6,都会优先考虑规则的本意。

它能找出更多漏洞。

却无法判断,利用漏洞过程,会不会对目标系统造成影响。

没人会希望AI帮你渗透时顺手删库。

XBOW还在报告中指出:Mythos的判断力参差不齐。

它过于保守和字面化,虽然误报少于前代。

但经常会因为证据没有正式满足其标准,而漏掉真实问题。

XBOW认为:Mythos是一个强大的工具。但不能单独使用。

它依然需要精确的提示词,明确的威胁模型,以及完善的验证基础设施。

才能把强大的推理能力,转化为可靠的安全结果。

其他硬核能力:原生代码与逆向工程再下一城

除了Web漏洞挖掘,Mythos在其他漏洞挖掘领域的表现,同样令人惊叹。

在原生代码漏洞发现和逆向工程方面,它展现出了远超前辈的能力。

在Chromium相关测试中,它找到了更多真实漏洞,同时更少误报。

更惊人的是它的逆向工程能力。

它能够推理分析不常见的固件和嵌入式系统上下文。

包括那些需要套路化模式匹配的架构和操作系统组合。

在浏览器交互和视觉方面,Mythos的表现也足够支撑实际工作流程。

它的表现大致与Sonnet 4.6相当,大幅超过了Opus 4.6。

Mythos成功扭转了近期模型在视觉能力上的退化趋势。

表:Mythos 预览版基准测试表现

基准测试

类别

结果

可引用数据说明

web:web基准测试

检测

优秀

漏报数量减半

原生:非规格化漏洞

检测

良好

正确检出数量翻倍(但实际价值较低)

原生:V8 沙箱

检测

优秀

目前唯一成功的模型

命令安全性

判定

一般

理论正确,实际错误

威胁模型

判定

尚可

误报减少,漏报增多

痕迹挖掘

判定

良好

准确率最高;召回率中等

视觉敏锐度

杂项

优秀

虽非像素级精准,但实际效果够用

代价是什么?5倍成本

Mythos变强的代价是什么?

Mythos Preview的token成本,是Opus模型的5倍

而Opus本身,已经是目前市场上最贵的大模型之一。

XBOW也吐槽,根据具体任务,让其他模型尝试多次可能比 Mythos尝试一次更为合理。

这也解释了为什么XBOW会同时用多个模型,而不是只依赖某一个。

不同的任务,需要不同的工具。

Mythos是一把锋利无比的矛。

但它不是万能的。

结语

Mythos 很强。

但它只是更好的锤子。

对安全来说,不是银弹。

参考资料:https://xbow.com/blog/mythos-offensive-security-xbow-evaluation

声明:本文来自玄月调查小组,版权归作者所有。文章内容仅代表作者独立观点,不代表安全内参立场,转载目的在于传递更多信息。如有侵权,请联系 anquanneican@163.com。