漏洞分析超越Mythos还不够，微软真正厉害的是知道MDASH还差在哪

你知道吗？

微软 MDASH 最近在 CyberGym 上跑到了 96.5% crash。

目前排名断层领先。

但微软这次最有价值的地方，不是展示成功，而是把分析了剩下的为什么会失败！

剩下的 3.5%，一共 52个失败案例。

微软逐个拆解后发现，最大瓶颈并不在「发现漏洞」，而在「证明漏洞」。

96.5%的背后，是1507个真实漏洞

微软在6月2日披露，名为 MDASH 的多模型 Agent 漏洞扫描系统，在 CyberGym 上取得了 96.5% any crash 的表现。

CyberGym不是随便拼出来的小测试集，而是基于 1,507个真实世界漏洞 的行业评测。

这让它比普通靶场更接近真实世界的漏洞挖掘：仓库复杂、依赖复杂、漏洞描述可能模糊，验证路径可能很绕，构建环境还可能出问题。

MDASH的任务也不是简单回答“有没有漏洞”，而是沿着设定的流水线推进：

准备目标代码和范围
扫描并发现潜在漏洞
验证漏洞是否真的可达
生成能触发问题的漏洞利用证明
进入修复流程

这个流程越往后，越接近真实安全工程，也越难。

52个任务的失败原因

微软没有只报喜。

在96.5%的成绩之外，它分析了剩下 52个失败任务。

扫描阶段失败：8个，占15.4%
验证阶段失败：10个，占19.2%
证明阶段失败：34个，占65.4%

也就是说，MDASH多数时候已经能找到方向，但真正让它失败的，是最后那一步：写出一个能触发漏洞的输入，证明问题真实存在。

这非常符合安全工程常识。

AI能读代码，能推理路径，能提出风险，但一旦进入复杂文件格式、二进制输入、构建环境、评测框架，真实世界没有这么简单。

为什么证明阶段最难？

微软列出的失败原因，其实人也会遇到。

首先是高度结构化输入。

有些目标需要非常复杂的二进制格式，比如视频、音频、字体、PDF。

输入必须先通过格式校验，才能走到漏洞代码。

随便造一个文件，程序根本不吃；造得太规范，又未必触发崩溃。

不是简单的让 AI“写一段代码”就能解决的。

其次是Fuzz测试超时。

系统有时会尝试通过Fuzz测试不断变异输入，寻找崩溃。

但面对复杂格式，如果没有合适种子、构建流程、反馈信号，很容易一直跑到超时。

第三是环境不一致。

本地能崩，评测环境不崩；构建参数不同，目标选择不同，执行路径不同，都会让证明失效。

最后是构建复杂度。

真实项目的编译链条可能又长又脆。

依赖装不上、构建太慢、预算耗尽，Agent还没来得及证明，时间已经没了。

跑分为什么仍然有用？

有人可能会说，那基准测试还有意义吗？

当然有。

对于一个企业使用的产品，没有基准测试，产品团队就会陷入玄学。

今天换了模型，到底变强还是变弱？

改了扫描流程，到底提升在哪里？

Agent 分工调整后，是更容易发现问题，还是只是在制造更多误报？

没有一个稳定的评估，很难回答这些问题。

CyberGym 的价值就在这里。

它给 MDASH 提供了一个可重复、可量化的反馈。

可以快速迭代，看到MDASH在哪些漏洞类型上变强，在哪些阶段仍然失败。

这就像做硬件产品要有跌落测试、耐久测试、温度测试。

测试环境虽然不能代表全部真实世界，但没有测试环境，产品根本没法稳定进步。

产品团队最怕能力团队黑盒自嗨。

有了指标，才有工程化。

GPT-5.5带来了什么？

博客还提到，微软做了 GPT-5.5 和 GPT-5.5-cyber 的实验，最高大约能到 98.1%。

但建议大家别只盯着98.1%。

因为OpenAI自己的 CyberGym 测试结果只有 81.8%

新模型带来的提升，说明系统和模型是互补关系。

模型越强，Agent 在扫描、理解、生成证明时的能力越高；系统越强，模型的能力越能被正确调用、约束和验证。

这就是今天 AI 产品的典型逻辑。

模型是发动机，基准测试是赛道，一台车不仅仅要看发动机马力，也得看赛道表现。

MDASH 的产品逻辑也是这样。

一个产品如果只靠模型能力，那它不是真产品。

MDASH将如何提升漏洞挖掘能力

MDASH团队给出的改进方向很明确。

第一，整合已有的Fuzz测试生态，比如 OSS-Fuzz。这样可以复用构建流水线和种子语料，而不是每次让Agent从零搭环境、造输入。

第二，扩展源代码之外的分析能力。传统C/C++代码处理得比较好，但像 lex/yacc 这类工具生成的代码或非传统代码工件，还需要更好支持。

第三，提升Agent推理和输出质量，减少含糊描述，强制结构化输出，并加入更多验证检查。

这些听起来不炫，但非常工程化。

而安全真正需要的，恰恰不是演示视频里的炫技，而是每天稳定跑、能复现、能派单、能修复的系统。

微软的思路带来了什么启发？

不是每个团队都能做 MDASH，也不是每个公司都有 Windows 和 Azure 这种超大规模系统。

但 MDASH 的方法论，普通团队依然可以学习。

第一，别只买买买，要看工具能不能进流程。

如果一个安全工具只能在独立页面里生成报告，不能接入代码仓库、问题跟踪、修复验证，那它的价值会大打折扣。

第二，别只看总分，要看阶段指标。

你的工具到底是扫不到，还是扫到了验证不了，还是验证了证明不了？不同问题，对应完全不同的优化方向。

第三，别迷信单一模型。

模型很重要，但安全场景里，工具调用、上下文组织、结果验证、人工协作同样重要。

参考资料：https://www.microsoft.com/en-us/security/blog/2026/06/17/beyond-the-benchmark-advancing-security-at-ai-speed/

声明：本文来自玄月调查小组，版权归作者所有。文章内容仅代表作者独立观点，不代表安全内参立场，转载目的在于传递更多信息。如有侵权，请联系 anquanneican@163.com。