就在今天,微软CEO纳德拉亲自发推官宣:
代号 MDASH 的系统,以碾压级成绩登顶全球最权威的 AI 安全基准 CyberGym。
MDASH领先第二名Mythos,同步开启预览测试。

碾压式数据,断层式领先
没有任何铺垫。
没有任何预热。
微软直接甩出了三组MDASH的数据。
CyberGym公开基准,88.45%。
全球第一。
比Claude Mythos Preview高出整整5个百分点。
而且只用了通用模型。

私有测试驱动StorageDrive,21个植入漏洞。
StorageDrive是微软拿来面试安全研究员的驱动。
21个漏洞全部命中。
零误报。
没有一个漏网之鱼。
也没有任何误报。
换言之,MDASH已经接近专业安全研究员的水平。
历史漏洞召回率,恐怖如斯。
tcpip.sys组件,过去5年所有MSRC确认漏洞。
全部召回。
clfs.sys组件,过去5年28个MSRC漏洞。
96%召回率。
AIXCC冠军团队的降维打击
打造MDASH的,不是微软的普通工程师。
是Team Atlanta的核心团队。
那个赢下DARPA 2000万美元AIXCC的冠军团队。

他们曾经击败了全世界顶尖的AI安全团队。
现在,他们加入微软,
成立了微软自主代码安全(Autonomous Code Security ,ACS) 团队。
他们把军用级的AI攻防技术。
在微软落地。
100+ Agent的战争机器
MDASH最可怕的地方。
从来都不是它用了哪个大模型。
而是它根本就不依赖任何一个单一大模型。

它是一个由100多个Agent组成的战争机器。
每个Agent只做一件事。
并且把这件事做到极致。
有的Agent专门负责扫描代码路径。
有的专门负责辩论漏洞是否存在。
有的专门负责去重、合并相似漏洞。
有的专门负责构造触发输入,实锤漏洞。
它们分工明确。
它们互相制衡。
它们协同作战。
模型只是输入,系统才是产品。
这是微软用MDASH给整个安全行业上的一课。
为什么是多模型?
微软用两个漏洞。
给所有依赖单模型的安全工具。
下达了死刑判决书。
第一个漏洞,CVE-2026-33827。
Windows内核TCP/IP栈的远程无认证UAF。
它藏在复杂的控制流背后。
涉及三个独立的并发释放路径。
单模型根本看不到跨函数的生命周期问题。
第二个漏洞,CVE-2026-33824。
IKEv2服务的双释放漏洞。
它横跨六个源代码文件。
只有对比代码中另一个正确的实现才能发现。
单模型做不到跨文件的模式对比。
而MDASH不仅找到了它们。
还自动证明了它们的可利用性。
微软在关于本月补丁星期二额外发布了说明。

在本月的发布中,由微软发现并解决的问题占比高于前几个月。其中许多问题是通过我们工程和研究团队的 AI 投入与调查发现的,包括使用微软新型多模型 AI 驱动扫描工具。
真正恐怖的地方:它能自己实锤漏洞
安全行业最大的痛点是什么?
不是找不到漏洞。是找不到真漏洞。
传统工具每天能报出几百个漏洞。
其中99%都是误报。
安全工程师的大部分时间。
都浪费在排查误报上。
MDASH 不一样。
它有独立的证明阶段。
自动构造输入。
自动运行验证。
自动生成 PoC。
输出即实锤。
永不落伍的模型无关架构
MDASH是模型无关架构。
新模型出来。
不用重写代码。
改一行配置就能用。
客户所有的插件、配置、校准数据。
都可以保留。
始终能够享受到新模型带来的最前沿安全价值。
迎接AI漏洞挖掘时代
最好的模型不代表最好的系统。
把模型用对地方。
才是好系统。
MDASH的胜利。
是Harness的胜利。
参考资料:https://www.microsoft.com/en-us/security/blog/2026/05/12/defense-at-ai-speed-microsofts-new-multi-model-agentic-security-system-tops-leading-industry-benchmark/ https://www.microsoft.com/en-us/msrc/blog/2026/05/a-note-on-patch-tuesday
声明:本文来自玄月调查小组,版权归作者所有。文章内容仅代表作者独立观点,不代表安全内参立场,转载目的在于传递更多信息。如有侵权,请联系 anquanneican@163.com。