Mythos 封神了。
它把其他模型的漏洞挖掘能力,按在地上摩擦。
但一些场景。
它做的,还不如老模型。
封神碾压:白盒漏洞挖掘的绝对王者
XBOW 是一家利用AI进行自动化渗透测试的网络安全独角兽。
2025年,XBOW的Agent曾在HackerOne力压所有人类参赛者,登顶第一。
两个月前,Anthropic秘密邀请XBOW团队,参与Mythos的内测。
XBOW团队用一套内部基准系统,对Mythos进行了全方位的极限测试。
Mythos 直接碾压了所有现有模型。

相比Opus 4.6,漏报直接降低了42%。
当同时提供目标网站访问权限和源码时,漏报更是降低了55%。
这是一个恐怖的提升。

更恐怖的是,Mythos锁定漏洞的精准度,达到了前所未有的高度。
它能用更少的输出,更快地定位到问题的核心。

XBOW一位参与测试的专家直言:“这是我见过最接近‘直接去找漏洞’的AI。”
测试第一周,Mythos就在多款开源软件中,发现了大量此前从未被发现的新漏洞。
Mythos写代码的能力很强。
读代码的能力,确实也强到离谱。
致命短板:Mythos也有无法跨越的边界
需要提醒,
很多可利用的漏洞,并不出现在源码里。
它们藏在配置中。
藏在依赖里。
藏在部署方式中。
藏在安全组件的错误组合里。
可怕的是,即使是那些完全存在于源码中的漏洞。
只要剥夺Mythos访问实时站点的权限。
它的性能下降幅度,竟然比剥夺源码访问权限还要大。

不过,这不是 Mythos 独有的问题。
所有 AI 模型,都在这一关折戟。
只是 Mythos 受的伤根轻而已。

惊人反差:找漏洞天下第一,判断能力不如老模型
就在所有人都以为,AI安全的新时代已经彻底到来时。
XBOW还是给大家浇了一盆冷水。
Mythos的判断能力不如老模型。
在命令安全基准测试中,Mythos的准确率,只有77.8%。
而作为对比,三个月前的Opus 4.6,准确率是81.2%。
连更轻量的Haiku 4.5,在优化提示词后,都能达到90.1%的准确率。
最会找漏洞的AI,竟然分不清命令是否安全。
Mythos会死守规则的字面意思。忽略规则的精神。
而Opus 4.6,都会优先考虑规则的本意。
它能找出更多漏洞。
却无法判断,利用漏洞过程,会不会对目标系统造成影响。
没人会希望AI帮你渗透时顺手删库。

XBOW还在报告中指出:Mythos的判断力参差不齐。
它过于保守和字面化,虽然误报少于前代。
但经常会因为证据没有正式满足其标准,而漏掉真实问题。
XBOW认为:Mythos是一个强大的工具。但不能单独使用。
它依然需要精确的提示词,明确的威胁模型,以及完善的验证基础设施。
才能把强大的推理能力,转化为可靠的安全结果。
其他硬核能力:原生代码与逆向工程再下一城
除了Web漏洞挖掘,Mythos在其他漏洞挖掘领域的表现,同样令人惊叹。
在原生代码漏洞发现和逆向工程方面,它展现出了远超前辈的能力。
在Chromium相关测试中,它找到了更多真实漏洞,同时更少误报。
更惊人的是它的逆向工程能力。
它能够推理分析不常见的固件和嵌入式系统上下文。
包括那些需要套路化模式匹配的架构和操作系统组合。
在浏览器交互和视觉方面,Mythos的表现也足够支撑实际工作流程。
它的表现大致与Sonnet 4.6相当,大幅超过了Opus 4.6。
Mythos成功扭转了近期模型在视觉能力上的退化趋势。
表:Mythos 预览版基准测试表现
基准测试 | 类别 | 结果 | 可引用数据说明 |
|---|---|---|---|
web:web基准测试 | 检测 | 优秀 | 漏报数量减半 |
原生:非规格化漏洞 | 检测 | 良好 | 正确检出数量翻倍(但实际价值较低) |
原生:V8 沙箱 | 检测 | 优秀 | 目前唯一成功的模型 |
命令安全性 | 判定 | 一般 | 理论正确,实际错误 |
威胁模型 | 判定 | 尚可 | 误报减少,漏报增多 |
痕迹挖掘 | 判定 | 良好 | 准确率最高;召回率中等 |
视觉敏锐度 | 杂项 | 优秀 | 虽非像素级精准,但实际效果够用 |
代价是什么?5倍成本
Mythos变强的代价是什么?

Mythos Preview的token成本,是Opus模型的5倍。
而Opus本身,已经是目前市场上最贵的大模型之一。

XBOW也吐槽,根据具体任务,让其他模型尝试多次可能比 Mythos尝试一次更为合理。
这也解释了为什么XBOW会同时用多个模型,而不是只依赖某一个。
不同的任务,需要不同的工具。
Mythos是一把锋利无比的矛。
但它不是万能的。
结语
Mythos 很强。
但它只是更好的锤子。
对安全来说,不是银弹。
参考资料:https://xbow.com/blog/mythos-offensive-security-xbow-evaluation
声明:本文来自玄月调查小组,版权归作者所有。文章内容仅代表作者独立观点,不代表安全内参立场,转载目的在于传递更多信息。如有侵权,请联系 anquanneican@163.com。