安全行业,又成功被新闻学坑了!

就在过去一段时间。

每一个安全从业人员。都要面临管理层的问题:

为什么还要继续花钱投入安全建设?

毕竟新闻媒体说,Mythos挖了很多知名软件0day。

所有人都默认,模型就是产品。

只要模型足够聪明,把代码扔给它。

漏洞就会自己出来。

模型能做的,只有1/5

2024年中,Claude Sonnet 3.5发布。

大模型的漏洞推理能力,第一次变成了现实。

现在的前沿模型,面对一个写好的函数。

能识别绝大多数已知的漏洞模式。

能推理代码的控制流走向。

甚至能写出看起来很合理的利用路径。

但这,仅仅是漏洞挖掘工作的一部分。

剩下的,单靠模型根本做不了。

为什么Theori敢于这么说?

Theori核心团队由一群拿过9 次 DEF CON世界冠军的成员组成。

他们还曾参加 DARPA AIXCC,拿下全球第三。

前文,曾经介绍过AIXCC拆解3000万美金砸出来的AIxCC:人类黑客会集体失业吗?

五一假期前,引爆互联网的Linux 核弹级漏洞 Copy Fail(CVE-2026-31431)。

就是TheoriXint Code 发现的。

Theori在漏洞挖掘领域以及AI挖洞的权威性毋庸置疑。

模型做不了的四件事

文件选择:模型不知道该看哪里

生产级代码库,动辄500万到1亿行。

最先进的模型,一次也只能处理10万行上下文。而且每一次调用,都要花钱。

真正决定效率的,从来不是模型能看多细。而是它该看哪些代码。

  • 攻击面识别

  • 入口点分析

  • 依赖图推理

  • 历史漏洞排查

这些工作,没有一个是模型能独立完成的。

随便把整个代码仓库扔给Agent。

结果就是99.9%的token,全部烧在了无关紧要的代码上。

钱花了,有用的漏洞一个没找到。

上下文组装:单文件推理等于垃圾

就算你运气好,选对了文件。

模型还是会出错。

因为漏洞从来不在单个文件里。

一个函数本身看起来天衣无缝。

但调用它的上游,没有做输入校验。

信任边界被打破了。

单文件的prompt,只能产生单文件的推理。

这正是传统SAST工具做了二十年,一直做不好的事情。

大模型,也没有解决这个问题。

验证与分级:模型制造的垃圾,模型自己不会区分

把代码扔给前沿模型跑一次,你会得到几百上千个“疑似漏洞”。

这里:有真,有假,有重复

有技术上成立,但已经被其他机制缓解的。有看起来很严重,实际上根本无法利用的。

安全工程师一大半的时间。

都花在从这堆垃圾里,把真正的漏洞挑出来。

EXP构建与确认:“看起来像”不等于“真的能用”

模型写的EXP。

永远只是草稿。

“这个函数看起来存在注入漏洞”。

这只是一个弱点。

“这是输入,运行它,服务器会返回管理员密码”。

这才是一个漏洞。

必须把这段草稿,拿到真实的测试环境里跑一遍,确认它真的能生效。

可以是渗透测试工程师。

也可以是专门搭建的验证流水线。

报告生成:CISO不看废话

最后,你需要一份可交付的报告。

要有严重等级、复现步骤、受影响的版本、建议的补丁、完整证据链。

而大模型给你的。只是一堆非结构化文本。

把非结构化文本转换成合规的报告。本身就是一个完整的产品。

五个阶段。只有一个,用到了模型。

另外四个。才是真正的工作。才是你真正应该花钱买的东西。

Mythos:AI行业塑造的巨大骗局

Anthropic的Mythos,是对安全行业最大的烟雾弹。

它让全世界都相信,是模型,直接找到了那些0day。

但没有人告诉你。Mythos的背后,是Anthropic21名顶尖安全研究员。

是他们亲手挑选了目标代码库,是他们设计了并行扫描策略,是他们雇佣了专业的人工审核团队,是他们负责了所有漏洞的披露。

Theori 用市面上的大模型结合(而非 Mythos)Xint Code(他们的AI代码审计产品),跑了同样的代码仓库。

不但复现了Mythos公布的所有关键发现,还额外找到了12个。

Anthropic没有披露的0day漏洞。

只是不一样的系统,产出了更好的结果。

这也是整个AI行业最不愿意承认的:系统才是关键,而非模型。

漏洞挖掘平台真正的价值

当购买一个漏洞发现平台的时候。

买的自然不会是模型的推理能力。

你买的是目标定位能力

有人帮你找出那千分之一值得看的代码,你不用为剩下99.9%的垃圾代码烧token。

你买的是经过验证的发现

你看到的每一个漏洞,都已经通过了审核,你不用自己去大海捞针。

你买的是可复现的步骤

你的开发人员拿到报告,不用再找安全工程师确认,自己就能复现漏洞。

你买的是影响评估

每一个漏洞都写清楚了。被利用之后会发生什么。是RCE?还是DOS?

你买的是建议的补丁

开发人员可以直接修复,不用自己去想解决方案。

你买的是可预测的价格

代码量翻倍,价格最多翻倍,而不是指数级暴涨的token。

致命陷阱:模型迭代的FOMO

这是绝大多数公司都没有意识到的,最大的陷阱。

今天你花了三个月。

基于GPT-5搭了一套自己的AI安全工具。

三个月后,GPT-6发布了,或者Claude 4.8 Opus发布了。

性能提升了50%,你怎么办?

把之前所有的工作,推翻重来?

再花三个月。为新的模型重新搭建一切。

然后再过三个月。下一个模型又发布了。

你永远在追赶。永远在重构。

永远在为模型厂商打工,为数据飞轮做贡献。

模型是输入,系统是产品

下一次,再有厂商给你演示AI安全工具。

不要问他用的是什么模型。

不要问他模型参数有多大。

不要问他模型跑分有多高。

你只需要问他一个问题:下个季度模型更强以后,你们怎么办?

他的回答,会告诉你。

他卖的是真正的产品。

还是只是一个prompt套壳。

模型会越来越强,这是肯定的。

但切记,模型只是输入。系统,才是产品。

过去两年。大家都被模型至上的神话洗脑了。

大家都以为参数就是一切,跑分就是能力。

大家以为只要追上最新的模型,就抓住了未来。

但真正的战争,从来不是模型之间的战争,而是系统之间的战争。

谁能把模型的能力。

转化成真正可用的产品。

谁才是最后的赢家。

而那些还在为模型参数疯狂的人。

终将被时代抛弃。

参考资料: You Don’t Need Mythos You Need a System.:https://go.xint.io/hubfs/Xint%20Whitepaper_You%20Dont%20Need%20Mythos.pdf?hsLang=en

System, Not Model: Why Off-the-Shelf LLMs Don’t Replace a Pen Test:https://xint.io/blog/167832

声明:本文来自玄月调查小组,版权归作者所有。文章内容仅代表作者独立观点,不代表安全内参立场,转载目的在于传递更多信息。如有侵权,请联系 anquanneican@163.com。