安全行业,又成功被新闻学坑了!
就在过去一段时间。
每一个安全从业人员。都要面临管理层的问题:
为什么还要继续花钱投入安全建设?
毕竟新闻媒体说,Mythos挖了很多知名软件0day。

所有人都默认,模型就是产品。
只要模型足够聪明,把代码扔给它。
漏洞就会自己出来。
模型能做的,只有1/5
2024年中,Claude Sonnet 3.5发布。
大模型的漏洞推理能力,第一次变成了现实。
现在的前沿模型,面对一个写好的函数。
能识别绝大多数已知的漏洞模式。
能推理代码的控制流走向。
甚至能写出看起来很合理的利用路径。
但这,仅仅是漏洞挖掘工作的一部分。
剩下的,单靠模型根本做不了。
为什么Theori敢于这么说?
Theori核心团队由一群拿过9 次 DEF CON世界冠军的成员组成。
他们还曾参加 DARPA AIXCC,拿下全球第三。

前文,曾经介绍过AIXCC拆解3000万美金砸出来的AIxCC:人类黑客会集体失业吗?
五一假期前,引爆互联网的Linux 核弹级漏洞 Copy Fail(CVE-2026-31431)。
就是Theori用 Xint Code 发现的。
Theori在漏洞挖掘领域以及AI挖洞的权威性毋庸置疑。
模型做不了的四件事
文件选择:模型不知道该看哪里
生产级代码库,动辄500万到1亿行。
最先进的模型,一次也只能处理10万行上下文。而且每一次调用,都要花钱。
真正决定效率的,从来不是模型能看多细。而是它该看哪些代码。
攻击面识别
入口点分析
依赖图推理
历史漏洞排查
这些工作,没有一个是模型能独立完成的。
随便把整个代码仓库扔给Agent。
结果就是99.9%的token,全部烧在了无关紧要的代码上。
钱花了,有用的漏洞一个没找到。
上下文组装:单文件推理等于垃圾
就算你运气好,选对了文件。
模型还是会出错。
因为漏洞从来不在单个文件里。
一个函数本身看起来天衣无缝。
但调用它的上游,没有做输入校验。
信任边界被打破了。
单文件的prompt,只能产生单文件的推理。
这正是传统SAST工具做了二十年,一直做不好的事情。
大模型,也没有解决这个问题。
验证与分级:模型制造的垃圾,模型自己不会区分
把代码扔给前沿模型跑一次,你会得到几百上千个“疑似漏洞”。
这里:有真,有假,有重复。
有技术上成立,但已经被其他机制缓解的。有看起来很严重,实际上根本无法利用的。
安全工程师一大半的时间。
都花在从这堆垃圾里,把真正的漏洞挑出来。
EXP构建与确认:“看起来像”不等于“真的能用”
模型写的EXP。
永远只是草稿。
“这个函数看起来存在注入漏洞”。
这只是一个弱点。
“这是输入,运行它,服务器会返回管理员密码”。
这才是一个漏洞。
必须把这段草稿,拿到真实的测试环境里跑一遍,确认它真的能生效。
可以是渗透测试工程师。
也可以是专门搭建的验证流水线。
报告生成:CISO不看废话
最后,你需要一份可交付的报告。
要有严重等级、复现步骤、受影响的版本、建议的补丁、完整证据链。
而大模型给你的。只是一堆非结构化文本。
把非结构化文本转换成合规的报告。本身就是一个完整的产品。
五个阶段。只有一个,用到了模型。
另外四个。才是真正的工作。才是你真正应该花钱买的东西。
Mythos:AI行业塑造的巨大骗局
Anthropic的Mythos,是对安全行业最大的烟雾弹。
它让全世界都相信,是模型,直接找到了那些0day。

但没有人告诉你。Mythos的背后,是Anthropic的21名顶尖安全研究员。
是他们亲手挑选了目标代码库,是他们设计了并行扫描策略,是他们雇佣了专业的人工审核团队,是他们负责了所有漏洞的披露。
Theori 用市面上的大模型结合(而非 Mythos)Xint Code(他们的AI代码审计产品),跑了同样的代码仓库。
不但复现了Mythos公布的所有关键发现,还额外找到了12个。
Anthropic没有披露的0day漏洞。
只是不一样的系统,产出了更好的结果。
这也是整个AI行业最不愿意承认的:系统才是关键,而非模型。
漏洞挖掘平台真正的价值
当购买一个漏洞发现平台的时候。
买的自然不会是模型的推理能力。
你买的是目标定位能力。
有人帮你找出那千分之一值得看的代码,你不用为剩下99.9%的垃圾代码烧token。
你买的是经过验证的发现。
你看到的每一个漏洞,都已经通过了审核,你不用自己去大海捞针。
你买的是可复现的步骤。
你的开发人员拿到报告,不用再找安全工程师确认,自己就能复现漏洞。
你买的是影响评估。
每一个漏洞都写清楚了。被利用之后会发生什么。是RCE?还是DOS?
你买的是建议的补丁。
开发人员可以直接修复,不用自己去想解决方案。
你买的是可预测的价格。
代码量翻倍,价格最多翻倍,而不是指数级暴涨的token。
致命陷阱:模型迭代的FOMO
这是绝大多数公司都没有意识到的,最大的陷阱。
今天你花了三个月。
基于GPT-5搭了一套自己的AI安全工具。
三个月后,GPT-6发布了,或者Claude 4.8 Opus发布了。
性能提升了50%,你怎么办?
把之前所有的工作,推翻重来?
再花三个月。为新的模型重新搭建一切。
然后再过三个月。下一个模型又发布了。
你永远在追赶。永远在重构。
永远在为模型厂商打工,为数据飞轮做贡献。

模型是输入,系统是产品
下一次,再有厂商给你演示AI安全工具。
不要问他用的是什么模型。
不要问他模型参数有多大。
不要问他模型跑分有多高。
你只需要问他一个问题:下个季度模型更强以后,你们怎么办?
他的回答,会告诉你。
他卖的是真正的产品。
还是只是一个prompt套壳。

模型会越来越强,这是肯定的。
但切记,模型只是输入。系统,才是产品。
过去两年。大家都被模型至上的神话洗脑了。
大家都以为参数就是一切,跑分就是能力。
大家以为只要追上最新的模型,就抓住了未来。
但真正的战争,从来不是模型之间的战争,而是系统之间的战争。
谁能把模型的能力。
转化成真正可用的产品。
谁才是最后的赢家。
而那些还在为模型参数疯狂的人。
终将被时代抛弃。
参考资料: You Don’t Need Mythos You Need a System.:https://go.xint.io/hubfs/Xint%20Whitepaper_You%20Dont%20Need%20Mythos.pdf?hsLang=en
System, Not Model: Why Off-the-Shelf LLMs Don’t Replace a Pen Test:https://xint.io/blog/167832
声明:本文来自玄月调查小组,版权归作者所有。文章内容仅代表作者独立观点,不代表安全内参立场,转载目的在于传递更多信息。如有侵权,请联系 anquanneican@163.com。