XBOW戳穿Mythos万能神话，多模型矩阵才是终极解法

Mythos 封神了。

它把其他模型的漏洞挖掘能力，按在地上摩擦。

但一些场景。

它做的，还不如老模型。

封神碾压：白盒漏洞挖掘的绝对王者

XBOW 是一家利用AI进行自动化渗透测试的网络安全独角兽。

2025年，XBOW的Agent曾在HackerOne力压所有人类参赛者，登顶第一。

两个月前，Anthropic秘密邀请XBOW团队，参与Mythos的内测。

XBOW团队用一套内部基准系统，对Mythos进行了全方位的极限测试。

Mythos 直接碾压了所有现有模型。

相比Opus 4.6，漏报直接降低了42%。

当同时提供目标网站访问权限和源码时，漏报更是降低了55%。

这是一个恐怖的提升。

更恐怖的是，Mythos锁定漏洞的精准度，达到了前所未有的高度。

它能用更少的输出，更快地定位到问题的核心。

XBOW一位参与测试的专家直言：“这是我见过最接近‘直接去找漏洞’的AI。”

测试第一周，Mythos就在多款开源软件中，发现了大量此前从未被发现的新漏洞。

Mythos写代码的能力很强。

读代码的能力，确实也强到离谱。

致命短板：Mythos也有无法跨越的边界

需要提醒，

很多可利用的漏洞，并不出现在源码里。

它们藏在配置中。

藏在依赖里。

藏在部署方式中。

藏在安全组件的错误组合里。

可怕的是，即使是那些完全存在于源码中的漏洞。

只要剥夺Mythos访问实时站点的权限。

它的性能下降幅度，竟然比剥夺源码访问权限还要大。

不过，这不是 Mythos 独有的问题。

所有 AI 模型，都在这一关折戟。

只是 Mythos 受的伤根轻而已。

惊人反差：找漏洞天下第一，判断能力不如老模型

就在所有人都以为，AI安全的新时代已经彻底到来时。

XBOW还是给大家浇了一盆冷水。

Mythos的判断能力不如老模型。

在命令安全基准测试中，Mythos的准确率，只有77.8%。

而作为对比，三个月前的Opus 4.6，准确率是81.2%。

连更轻量的Haiku 4.5，在优化提示词后，都能达到90.1%的准确率。

最会找漏洞的AI，竟然分不清命令是否安全。

Mythos会死守规则的字面意思。忽略规则的精神。

而Opus 4.6，都会优先考虑规则的本意。

它能找出更多漏洞。

却无法判断，利用漏洞过程，会不会对目标系统造成影响。

没人会希望AI帮你渗透时顺手删库。

XBOW还在报告中指出：Mythos的判断力参差不齐。

它过于保守和字面化，虽然误报少于前代。

但经常会因为证据没有正式满足其标准，而漏掉真实问题。

XBOW认为：Mythos是一个强大的工具。但不能单独使用。

它依然需要精确的提示词，明确的威胁模型，以及完善的验证基础设施。

才能把强大的推理能力，转化为可靠的安全结果。

其他硬核能力：原生代码与逆向工程再下一城

除了Web漏洞挖掘，Mythos在其他漏洞挖掘领域的表现，同样令人惊叹。

在原生代码漏洞发现和逆向工程方面，它展现出了远超前辈的能力。

在Chromium相关测试中，它找到了更多真实漏洞，同时更少误报。

更惊人的是它的逆向工程能力。

它能够推理分析不常见的固件和嵌入式系统上下文。

包括那些需要套路化模式匹配的架构和操作系统组合。

在浏览器交互和视觉方面，Mythos的表现也足够支撑实际工作流程。

它的表现大致与Sonnet 4.6相当，大幅超过了Opus 4.6。

Mythos成功扭转了近期模型在视觉能力上的退化趋势。

表：Mythos 预览版基准测试表现

基准测试	类别	结果	可引用数据说明
web：web基准测试	检测	优秀	漏报数量减半
原生：非规格化漏洞	检测	良好	正确检出数量翻倍（但实际价值较低）
原生：V8 沙箱	检测	优秀	目前唯一成功的模型
命令安全性	判定	一般	理论正确，实际错误
威胁模型	判定	尚可	误报减少，漏报增多
痕迹挖掘	判定	良好	准确率最高；召回率中等
视觉敏锐度	杂项	优秀	虽非像素级精准，但实际效果够用

代价是什么？5倍成本

Mythos变强的代价是什么？

Mythos Preview的token成本，是Opus模型的5倍。

而Opus本身，已经是目前市场上最贵的大模型之一。

XBOW也吐槽，根据具体任务，让其他模型尝试多次可能比 Mythos尝试一次更为合理。

这也解释了为什么XBOW会同时用多个模型，而不是只依赖某一个。

不同的任务，需要不同的工具。

Mythos是一把锋利无比的矛。

但它不是万能的。

结语

Mythos 很强。

但它只是更好的锤子。

对安全来说，不是银弹。

参考资料：https://xbow.com/blog/mythos-offensive-security-xbow-evaluation

声明：本文来自玄月调查小组，版权归作者所有。文章内容仅代表作者独立观点，不代表安全内参立场，转载目的在于传递更多信息。如有侵权，请联系 anquanneican@163.com。

XBOW戳穿Mythos万能神话，多模型矩阵才是终极解法

封神碾压：白盒漏洞挖掘的绝对王者

致命短板：Mythos也有无法跨越的边界

惊人反差：找漏洞天下第一，判断能力不如老模型

其他硬核能力：原生代码与逆向工程再下一城

代价是什么？5倍成本

结语

OpenAnt：通过代码分解、对抗性验证与动态测试的LLM漏洞发现

自动化证书管理国际标准和前沿研究综述

当AgentOS开始看屏幕：如何阻止手机截图成为隐私出口