GLM-5.2在美国引发的争论

最近智谱新上的模型GLM5.2引起了美国方面的高度关注。昨天华尔街日报的一个报道说，根据提供超过 400 种 AI 模型访问权限的公司 OpenRouter 的数据，GLM-5.2 已成为使用率最高的十大 AI 模型之一。网络安全公司 Semgrep 称，在某些基准测试中，GLM-5.2 超越了 Anthropic 于 5 月发布的 Claude Opus 4.8 模型。研究人员表示，在获得进一步指令后，Opus 4.8 和 GLM-5.2 在漏洞查找能力上和Mythos 不相上下。

当然，也有人说这篇报道夸大其词、混淆概念。理由是：无论是GPT-5.5、Opus 4.8，还是某些开源模型，只要给予充足的资源并精准定位到特定的代码段落，它们总能识别代码中任何给定的安全问题。Mythos的独特之处在于它能自主、大规模地识别漏洞，无需人工定位，随后还能利用海量看似无关的漏洞自主串联成完整的可用攻击链。这些都是智谱做不到的。

也有人研究了模型蒸馏问题，认为GLM-5.2 的进步未必只是蒸馏 Claude这么简单，实际上Anthropic也没有公开指责GLM-5.2存在蒸馏。Claude 在中国被封堵后，需求没有消失，而是大量流向了各种 API 中转代理平台。这些平台不只是转发请求，还可能沉淀了大量真实开发者的高质量使用数据，包括提示词、代码上下文、报错、多轮修改、智能体执行轨迹和人工反馈。相比单纯拿 Claude 答案做蒸馏，这类真实工程数据价值更高，因为它记录的是开发者如何用顶尖模型解决复杂问题的完整工作流。

也就是说，Anthropic 想通过限制访问保护 Claude，结果可能反而催生了灰色中转生态，把原本属于 Claude 的用户、数据和开发者信任外溢出去，最终帮助开源模型形成自己的数据飞轮。

这种观点认为，GLM-5.2 的意义也正在这里：它不一定全面超越 Claude，但只要达到可用水平，再叠加开源、本地部署、低成本和不断服的确定性，就会让越来越多开发者转向自主可控的开源模型。

今天X上一条前 Meta 产品经理 Xiaoyin Qu 的帖子也说了这层意思，并且引起很多讨论。

Xiaoyin Qu的判断是：中国 AI 公司会用便宜甚至免费的好模型，去挤压 OpenAI 和 Anthropic 这类美国闭源模型公司的空间；等企业把模型迁过去，中国再凭借低电价和算力基础设施，把推理算力也作为商品卖出去。

Xiaoyin Qu认为，这个事如果处理不好，美国人工智能可能面临的最坏情况：1）中国开源软件市场份额持续增长。中国拥有模型层。2）这些模型是在华为芯片而非英伟达芯片上进行训练和推理优化的。中国也拥有芯片层。3）美国数据中心建设速度跟不上计算、存储和能源的需求。与此同时，中国出口推理和训练层（持续训练将与推理同步进行）。出口管制不是好主意。简单地禁止“来自中国的开源软件”并不能解决问题。美国必须投资开源模型，希望中国模型也能使用英伟达芯片，并尽快投资核能。

这个评论之所以刺激到美国人，主要还是因为它触及到了中美 AI 产业竞争问题。美国企业到底会不会转向开源模型？如果转向，又会不会因此触发美国对中国开源模型的限制？兹事体大。

一些美国企业的举动也加剧了这一关切。Coinbase CEO Brian Armstrong 公开说，公司内部 LLM 网关已经默认切到 GLM 5.2、Kimi 2.7 这类开放权重模型，工程师仍然可以按任务选择模型。报道给出的账面结果是，Coinbase 的 AI 账单接近减半。GLM 5.2 的价格约为每百万 Token 1.40 美元，而 Anthropic Opus 是 5 美元。

类似信号不止一个。DeepSeek 6 月登上美国企业支出管理平台 Ramp 的软件趋势榜首位，说明企业采购侧已经有动作。Pinterest 用自研、开源模型和闭源 API 混合，把 AI 成本压低 90%，其中包括 Qwen 这类中国开源模型。a16z 的 Martin Casado 也说过一个窄口径数字：来他们融资的美国 AI 初创公司中，使用开源模型的那部分，约八成选择中国模型。这个数字不能外推到所有美国企业，但能说明初创公司对成本很敏感。

我的判断是：美国公司会更多使用开源或开放权重模型，但不会把闭源模型全部换掉。它们转的可能会是是采购结构，不是阵营。美国企业会把客服、摘要、简单代码辅助、内容处理、内部工具这类任务交给开放权重模型；遇到复杂推理、关键代码、安全分析、法律责任和 SLA，还是会继续用闭源模型。MIT Sloan 引用的数据也能说明这一点：OpenAI、Anthropic、Google 的闭源模型仍处理 OpenRouter 等主流推理平台约 80% 的 Token 调用量。

另外，我也不认为美国会马上全面禁止中国开源模型。更可能的路径是政府设备先禁，联邦承包商受限，出口分发加许可，前沿模型发布前审查。也就是说，不是所有企业都不能用，而是政府、关键行业和受监管链条先被卡住。

布鲁金斯学会的研究员Kyle Chan 提醒美国专家们，不要轻易相信“GLM-5.2 已经达到 Mythos 级网络安全能力”这类说法。比较有效的的验证，是看模型能否完成英国AI安全研究所的 “The Last Ones” 和 “Cooling Tower” 网络靶场测试；现实是截至他发帖，只有 Mythos 完成了后者，GPT-5.5 都没做到。也就是说，便宜和够用，不等于在高风险能力上追平。中国模型可以替代大量中间层任务，但不能据此推出它已经全面替代美国闭源前沿模型。

对于智谱，我觉得需要把商业竞争力和模型竞争力分开来看，两者并不完全是一回事。

从商业化来看，智谱目前最大的优势不是跑分，而是适配国内政企市场。大量央企、国企在部署大模型时，最关心的是私有化部署、数据安全、自主可控和本地交付，而不是某项国际排行榜的成绩。在这一市场中，智谱已经建立了较深的客户基础，因此在国内B端市场的存在感比较强。

如果讨论模型本身，则不能简单地用一个“谁更强”来概括，因为不同能力的发展速度并不一样。

当前最容易缩小差距的是那些边界清晰、评价标准明确的能力，例如代码生成。这类任务更依赖数据覆盖和工程优化，只要持续投入训练资源，国内头部模型在代码生成、程序理解和Bug修复等专项测试中进入全球第一梯队，是可以预期的。

真正拉开差距的，是那些没有固定答案、需要持续决策的任务，特别是Agent。当模型需要自己决定下一步做什么、什么时候查资料、什么时候调用工具、什么时候修改方案，并能够根据执行结果不断调整策略时，对模型整体能力提出了更高要求。目前国际领先模型在这一类复杂任务上的成熟度仍然更高。

更高一层，是模型的整体智能水平。这不仅取决于知识储备，还涉及推理、语言理解、跨领域迁移以及复杂问题处理能力。智谱无疑属于国内第一梯队，但国内这一梯队竞争本身就十分激烈，DeepSeek、通义千问等模型都具备很强实力，因此智谱并没有形成绝对领先。放到全球范围内，与国际最先进模型相比，整体能力仍有提升空间。

我认为，中美模型的这种差距更多来自研发路线，而不仅仅是模型参数规模。目前国内不少模型仍然倾向于把用户请求直接映射为答案，即围绕任务本身进行推理。而海外领先模型越来越强调系统协同：先分析问题，再决定是否联网、是否识别图片、是否调用Computer Use或其他工具，然后将任务拆解成多个环节分别完成，最后再汇总结果。它们更像是在管理一个由多个能力模块组成的工作流，而不是依赖单一模型一次性完成全部工作。

回到企业采用开源模型的主要考虑，还有几个成本之外的理由。开放权重模型可以部署在自有 GPU 或私有云里，对医疗、金融、政府这类强监管场景，“数据不出域”本身就是卖点。同时，闭源 API 也出现了政治性中断风险。6 月 12 日，Anthropic 的 Fable 5 被美国出口管制指令迅速拉下线，依赖该 API 的产品直接受影响。这会让企业更愿意保留开放权重备份。

但也有人指出来，开源不是免费午餐。模型评估、故障追踪、数据保护、长期维护责任都会转到企业自己身上。许可证也麻烦：一项 arXiv 研究称，模型到应用的转换链条中约 35.5% 违反上游许可证。闭源厂商也不会坐等被替代。OpenAI 降价、发布免费开放模型 gpt-oss-120b，AWS 把 Gemma 4 放进 Bedrock，TCS 与 Mistral 合作推 Mistral Forge，都是在把开放权重纳入已有商业体系。

美国已经在政府设备上禁用 DeepSeek，参议院提案还试图把限制扩大到联邦机构和承包商，禁止使用幻方量化及其关联实体提供的应用和服务。国会也已调查包括 Airbnb 在内的美国企业使用阿里 Qwen 等中国模型的国家安全风险。正在推进的2027财年国防授权法第1651条，把原来国防部和国防供应商不能使用的模型，从DeepSeek扩大成了覆盖整个中国主流大模型生态：增加了百度、智谱、月之暗面、零一万物、MiniMax、阿里、腾讯、华为和小米等，以及所有被美国制裁、列入1260H清单、位于中国或被认定受中国控制的AI企业。这些公司开发的模型，以及未来基于这些模型微调、蒸馏出来的新模型，国防部和国防部的供应商都不能采购、部署或使用。这些都不是全面商业禁令，但会让想用中国开源模型的美国企业变得谨慎。

同时，美国政府也在给自己留后路。截至 6 月 17 日，美国暂缓将 DeepSeek、长鑫存储等一百多家中国企业列入实体清单，理由是避免升级。这说明政策工具会分层使用：政府系统先禁，承包商再收紧，出口管制和前沿模型审查作为后手。普通商业公司是否能用中国开源模型，可能要看具体的行业、数据类型、客户性质和是否涉及政府合同。

接下来有几个观察点：第一，NSA、CISA、NIST 对“危险前沿 AI 模型”的定义，会不会覆盖自托管开放权重模型。第二，DeepSeek、幻方是不是会最终进实体清单。第三，Coinbase 这种联邦注册金融机构公开使用中国开放权重模型后，会不会被美国监管问询。第四，GLM、Kimi、DeepSeek、Qwen 这类模型能否在英国AI安全研究所的高难度网络靶场上拿出结果。前三个决定能不能用，第四个决定美国有没有更强理由去管。

声明：本文来自东不压桥研究院，版权归作者所有。文章内容仅代表作者独立观点，不代表安全内参立场，转载目的在于传递更多信息。如有侵权，请联系 anquanneican@163.com。

GLM-5.2在美国引发的争论

构建智能体安全治理新范式：从行为规约到生态共治

国家安全部：游戏数据竟被用于军事目的？

黑灰产公然叫卖“去AI水印”服务，实测图片“去AI”后骗过平台审核