Theori用通用模型打败了Anthropic的Mythos，还多找了12个0day

安全行业，又成功被新闻学坑了！

就在过去一段时间。

每一个安全从业人员。都要面临管理层的问题：

为什么还要继续花钱投入安全建设？

毕竟新闻媒体说，Mythos挖了很多知名软件0day。

所有人都默认，模型就是产品。

只要模型足够聪明，把代码扔给它。

漏洞就会自己出来。

模型能做的，只有1/5

2024年中，Claude Sonnet 3.5发布。

大模型的漏洞推理能力，第一次变成了现实。

现在的前沿模型，面对一个写好的函数。

能识别绝大多数已知的漏洞模式。

能推理代码的控制流走向。

甚至能写出看起来很合理的利用路径。

但这，仅仅是漏洞挖掘工作的一部分。

剩下的，单靠模型根本做不了。

为什么Theori敢于这么说？

Theori核心团队由一群拿过9 次 DEF CON世界冠军的成员组成。

他们还曾参加 DARPA AIXCC,拿下全球第三。

前文，曾经介绍过AIXCC拆解3000万美金砸出来的AIxCC：人类黑客会集体失业吗？

五一假期前，引爆互联网的Linux 核弹级漏洞 Copy Fail（CVE-2026-31431）。

就是Theori用 Xint Code 发现的。

Theori在漏洞挖掘领域以及AI挖洞的权威性毋庸置疑。

模型做不了的四件事

文件选择：模型不知道该看哪里

生产级代码库，动辄500万到1亿行。

最先进的模型，一次也只能处理10万行上下文。而且每一次调用，都要花钱。

真正决定效率的，从来不是模型能看多细。而是它该看哪些代码。

攻击面识别
入口点分析
依赖图推理
历史漏洞排查

这些工作，没有一个是模型能独立完成的。

随便把整个代码仓库扔给Agent。

结果就是99.9%的token，全部烧在了无关紧要的代码上。

钱花了，有用的漏洞一个没找到。

上下文组装：单文件推理等于垃圾

就算你运气好，选对了文件。

模型还是会出错。

因为漏洞从来不在单个文件里。

一个函数本身看起来天衣无缝。

但调用它的上游，没有做输入校验。

信任边界被打破了。

单文件的prompt，只能产生单文件的推理。

这正是传统SAST工具做了二十年，一直做不好的事情。

大模型，也没有解决这个问题。

验证与分级：模型制造的垃圾，模型自己不会区分

把代码扔给前沿模型跑一次，你会得到几百上千个“疑似漏洞”。

这里：有真，有假，有重复。

有技术上成立，但已经被其他机制缓解的。有看起来很严重，实际上根本无法利用的。

安全工程师一大半的时间。

都花在从这堆垃圾里，把真正的漏洞挑出来。

EXP构建与确认：“看起来像”不等于“真的能用”

模型写的EXP。

永远只是草稿。

“这个函数看起来存在注入漏洞”。

这只是一个弱点。

“这是输入，运行它，服务器会返回管理员密码”。

这才是一个漏洞。

必须把这段草稿，拿到真实的测试环境里跑一遍，确认它真的能生效。

可以是渗透测试工程师。

也可以是专门搭建的验证流水线。

报告生成：CISO不看废话

最后，你需要一份可交付的报告。

要有严重等级、复现步骤、受影响的版本、建议的补丁、完整证据链。

而大模型给你的。只是一堆非结构化文本。

把非结构化文本转换成合规的报告。本身就是一个完整的产品。

五个阶段。只有一个，用到了模型。

另外四个。才是真正的工作。才是你真正应该花钱买的东西。

Mythos：AI行业塑造的巨大骗局

Anthropic的Mythos，是对安全行业最大的烟雾弹。

它让全世界都相信，是模型，直接找到了那些0day。

但没有人告诉你。Mythos的背后，是Anthropic的21名顶尖安全研究员。

是他们亲手挑选了目标代码库，是他们设计了并行扫描策略，是他们雇佣了专业的人工审核团队，是他们负责了所有漏洞的披露。

Theori 用市面上的大模型结合（而非 Mythos）Xint Code（他们的AI代码审计产品），跑了同样的代码仓库。

不但复现了Mythos公布的所有关键发现，还额外找到了12个。

Anthropic没有披露的0day漏洞。

只是不一样的系统，产出了更好的结果。

这也是整个AI行业最不愿意承认的：系统才是关键，而非模型。

漏洞挖掘平台真正的价值

当购买一个漏洞发现平台的时候。

买的自然不会是模型的推理能力。

你买的是目标定位能力。

有人帮你找出那千分之一值得看的代码，你不用为剩下99.9%的垃圾代码烧token。

你买的是经过验证的发现。

你看到的每一个漏洞，都已经通过了审核，你不用自己去大海捞针。

你买的是可复现的步骤。

你的开发人员拿到报告，不用再找安全工程师确认，自己就能复现漏洞。

你买的是影响评估。

每一个漏洞都写清楚了。被利用之后会发生什么。是RCE？还是DOS？

你买的是建议的补丁。

开发人员可以直接修复，不用自己去想解决方案。

你买的是可预测的价格。

代码量翻倍，价格最多翻倍，而不是指数级暴涨的token。

致命陷阱：模型迭代的FOMO

这是绝大多数公司都没有意识到的，最大的陷阱。

今天你花了三个月。

基于GPT-5搭了一套自己的AI安全工具。

三个月后，GPT-6发布了，或者Claude 4.8 Opus发布了。

性能提升了50%，你怎么办？

把之前所有的工作，推翻重来？

再花三个月。为新的模型重新搭建一切。

然后再过三个月。下一个模型又发布了。

你永远在追赶。永远在重构。

永远在为模型厂商打工，为数据飞轮做贡献。

模型是输入，系统是产品

下一次，再有厂商给你演示AI安全工具。

不要问他用的是什么模型。

不要问他模型参数有多大。

不要问他模型跑分有多高。

你只需要问他一个问题：下个季度模型更强以后，你们怎么办？

他的回答，会告诉你。

他卖的是真正的产品。

还是只是一个prompt套壳。

模型会越来越强，这是肯定的。

但切记，模型只是输入。系统，才是产品。

过去两年。大家都被模型至上的神话洗脑了。

大家都以为参数就是一切，跑分就是能力。

大家以为只要追上最新的模型，就抓住了未来。

但真正的战争，从来不是模型之间的战争，而是系统之间的战争。

谁能把模型的能力。

转化成真正可用的产品。

谁才是最后的赢家。

而那些还在为模型参数疯狂的人。

终将被时代抛弃。

参考资料： You Don’t Need Mythos You Need a System.：https://go.xint.io/hubfs/Xint%20Whitepaper_You%20Dont%20Need%20Mythos.pdf?hsLang=en

System, Not Model: Why Off-the-Shelf LLMs Don’t Replace a Pen Test：https://xint.io/blog/167832

声明：本文来自玄月调查小组，版权归作者所有。文章内容仅代表作者独立观点，不代表安全内参立场，转载目的在于传递更多信息。如有侵权，请联系 anquanneican@163.com。