就在今天,微软CEO纳德拉亲自发推官宣:

代号 MDASH 的系统,以碾压级成绩登顶全球最权威的 AI 安全基准 CyberGym。

MDASH领先第二名Mythos,同步开启预览测试。

碾压式数据,断层式领先

没有任何铺垫。

没有任何预热。

微软直接甩出了三组MDASH的数据。

CyberGym公开基准,88.45%。

全球第一。

Claude Mythos Preview高出整整5个百分点。

而且只用了通用模型。

私有测试驱动StorageDrive,21个植入漏洞。

StorageDrive是微软拿来面试安全研究员的驱动。

21个漏洞全部命中。

零误报。

没有一个漏网之鱼。

也没有任何误报。

换言之,MDASH已经接近专业安全研究员的水平。

历史漏洞召回率,恐怖如斯。

tcpip.sys组件,过去5年所有MSRC确认漏洞。

全部召回。

clfs.sys组件,过去5年28个MSRC漏洞。

96%召回率。

AIXCC冠军团队的降维打击

打造MDASH的,不是微软的普通工程师。

是Team Atlanta的核心团队。

那个赢下DARPA 2000万美元AIXCC的冠军团队。

他们曾经击败了全世界顶尖的AI安全团队。

现在,他们加入微软,

成立了微软自主代码安全(Autonomous Code Security ,ACS) 团队

他们把军用级的AI攻防技术。

在微软落地。

100+ Agent的战争机器

MDASH最可怕的地方。

从来都不是它用了哪个大模型。

而是它根本就不依赖任何一个单一大模型。

它是一个由100多个Agent组成的战争机器。

每个Agent只做一件事。

并且把这件事做到极致。

有的Agent专门负责扫描代码路径。

有的专门负责辩论漏洞是否存在。

有的专门负责去重、合并相似漏洞。

有的专门负责构造触发输入,实锤漏洞。

它们分工明确。

它们互相制衡。

它们协同作战。

模型只是输入,系统才是产品。

这是微软用MDASH给整个安全行业上的一课。

为什么是多模型?

微软用两个漏洞。

给所有依赖单模型的安全工具。

下达了死刑判决书。

第一个漏洞,CVE-2026-33827。

Windows内核TCP/IP栈的远程无认证UAF。

它藏在复杂的控制流背后。

涉及三个独立的并发释放路径。

单模型根本看不到跨函数的生命周期问题。

第二个漏洞,CVE-2026-33824。

IKEv2服务的双释放漏洞。

它横跨六个源代码文件。

只有对比代码中另一个正确的实现才能发现。

单模型做不到跨文件的模式对比。

而MDASH不仅找到了它们。

还自动证明了它们的可利用性。

微软在关于本月补丁星期二额外发布了说明。

在本月的发布中,由微软发现并解决的问题占比高于前几个月。其中许多问题是通过我们工程和研究团队的 AI 投入与调查发现的,包括使用微软新型多模型 AI 驱动扫描工具。

真正恐怖的地方:它能自己实锤漏洞

安全行业最大的痛点是什么?

不是找不到漏洞。是找不到真漏洞。

传统工具每天能报出几百个漏洞。

其中99%都是误报。

安全工程师的大部分时间。

都浪费在排查误报上。

MDASH 不一样。

它有独立的证明阶段

自动构造输入。

自动运行验证。

自动生成 PoC。

输出即实锤。

永不落伍的模型无关架构

MDASH模型无关架构。

新模型出来。

不用重写代码。

改一行配置就能用。

客户所有的插件、配置、校准数据。

都可以保留。

始终能够享受到新模型带来的最前沿安全价值。

迎接AI漏洞挖掘时代

最好的模型不代表最好的系统。

把模型用对地方。

才是好系统。

MDASH的胜利。

Harness的胜利。

参考资料:https://www.microsoft.com/en-us/security/blog/2026/05/12/defense-at-ai-speed-microsofts-new-multi-model-agentic-security-system-tops-leading-industry-benchmark/ https://www.microsoft.com/en-us/msrc/blog/2026/05/a-note-on-patch-tuesday

声明:本文来自玄月调查小组,版权归作者所有。文章内容仅代表作者独立观点,不代表安全内参立场,转载目的在于传递更多信息。如有侵权,请联系 anquanneican@163.com。