最近智谱新上的模型GLM5.2引起了美国方面的高度关注。昨天华尔街日报的一个报道说,根据提供超过 400 种 AI 模型访问权限的公司 OpenRouter 的数据,GLM-5.2 已成为使用率最高的十大 AI 模型之一。网络安全公司 Semgrep 称,在某些基准测试中,GLM-5.2 超越了 Anthropic 于 5 月发布的 Claude Opus 4.8 模型。 研究人员表示,在获得进一步指令后,Opus 4.8 和 GLM-5.2 在漏洞查找能力上和Mythos 不相上下。
当然,也有人说这篇报道夸大其词、混淆概念。理由是:无论是GPT-5.5、Opus 4.8,还是某些开源模型,只要给予充足的资源并精准定位到特定的代码段落,它们总能识别代码中任何给定的安全问题。Mythos的独特之处在于它能自主、大规模地识别漏洞,无需人工定位,随后还能利用海量看似无关的漏洞自主串联成完整的可用攻击链。这些都是智谱做不到的。
也有人研究了模型蒸馏问题,认为GLM-5.2 的进步未必只是蒸馏 Claude这么简单,实际上Anthropic也没有公开指责GLM-5.2存在蒸馏。Claude 在中国被封堵后,需求没有消失,而是大量流向了各种 API 中转代理平台。这些平台不只是转发请求,还可能沉淀了大量真实开发者的高质量使用数据,包括提示词、代码上下文、报错、多轮修改、智能体执行轨迹和人工反馈。相比单纯拿 Claude 答案做蒸馏,这类真实工程数据价值更高,因为它记录的是开发者如何用顶尖模型解决复杂问题的完整工作流。
也就是说,Anthropic 想通过限制访问保护 Claude,结果可能反而催生了灰色中转生态,把原本属于 Claude 的用户、数据和开发者信任外溢出去,最终帮助开源模型形成自己的数据飞轮。
这种观点认为,GLM-5.2 的意义也正在这里:它不一定全面超越 Claude,但只要达到可用水平,再叠加开源、本地部署、低成本和不断服的确定性,就会让越来越多开发者转向自主可控的开源模型。
今天X上一条前 Meta 产品经理 Xiaoyin Qu 的帖子也说了这层意思,并且引起很多讨论。
Xiaoyin Qu的判断是:中国 AI 公司会用便宜甚至免费的好模型,去挤压 OpenAI 和 Anthropic 这类美国闭源模型公司的空间;等企业把模型迁过去,中国再凭借低电价和算力基础设施,把推理算力也作为商品卖出去。
Xiaoyin Qu认为,这个事如果处理不好,美国人工智能可能面临的最坏情况:1)中国开源软件市场份额持续增长。中国拥有模型层。2)这些模型是在华为芯片而非英伟达芯片上进行训练和推理优化的。中国也拥有芯片层。3)美国数据中心建设速度跟不上计算、存储和能源的需求。与此同时,中国出口推理和训练层(持续训练将与推理同步进行)。出口管制不是好主意。简单地禁止“来自中国的开源软件”并不能解决问题。美国必须投资开源模型,希望中国模型也能使用英伟达芯片,并尽快投资核能。
这个评论之所以刺激到美国人,主要还是因为它触及到了中美 AI 产业竞争问题。美国企业到底会不会转向开源模型?如果转向,又会不会因此触发美国对中国开源模型的限制?兹事体大。
一些美国企业的举动也加剧了这一关切。Coinbase CEO Brian Armstrong 公开说,公司内部 LLM 网关已经默认切到 GLM 5.2、Kimi 2.7 这类开放权重模型,工程师仍然可以按任务选择模型。报道给出的账面结果是,Coinbase 的 AI 账单接近减半。GLM 5.2 的价格约为每百万 Token 1.40 美元,而 Anthropic Opus 是 5 美元。
类似信号不止一个。DeepSeek 6 月登上美国企业支出管理平台 Ramp 的软件趋势榜首位,说明企业采购侧已经有动作。Pinterest 用自研、开源模型和闭源 API 混合,把 AI 成本压低 90%,其中包括 Qwen 这类中国开源模型。a16z 的 Martin Casado 也说过一个窄口径数字:来他们融资的美国 AI 初创公司中,使用开源模型的那部分,约八成选择中国模型。这个数字不能外推到所有美国企业,但能说明初创公司对成本很敏感。
我的判断是:美国公司会更多使用开源或开放权重模型,但不会把闭源模型全部换掉。它们转的可能会是是采购结构,不是阵营。美国企业会把客服、摘要、简单代码辅助、内容处理、内部工具这类任务交给开放权重模型;遇到复杂推理、关键代码、安全分析、法律责任和 SLA,还是会继续用闭源模型。MIT Sloan 引用的数据也能说明这一点:OpenAI、Anthropic、Google 的闭源模型仍处理 OpenRouter 等主流推理平台约 80% 的 Token 调用量。
另外,我也不认为美国会马上全面禁止中国开源模型。更可能的路径是政府设备先禁,联邦承包商受限,出口分发加许可,前沿模型发布前审查。也就是说,不是所有企业都不能用,而是政府、关键行业和受监管链条先被卡住。
布鲁金斯学会的研究员Kyle Chan 提醒美国专家们,不要轻易相信“GLM-5.2 已经达到 Mythos 级网络安全能力”这类说法。比较有效的的验证,是看模型能否完成英国AI安全研究所的 “The Last Ones” 和 “Cooling Tower” 网络靶场测试;现实是截至他发帖,只有 Mythos 完成了后者,GPT-5.5 都没做到。也就是说,便宜和够用,不等于在高风险能力上追平。中国模型可以替代大量中间层任务,但不能据此推出它已经全面替代美国闭源前沿模型。
对于智谱,我觉得需要把商业竞争力和模型竞争力分开来看,两者并不完全是一回事。
从商业化来看,智谱目前最大的优势不是跑分,而是适配国内政企市场。大量央企、国企在部署大模型时,最关心的是私有化部署、数据安全、自主可控和本地交付,而不是某项国际排行榜的成绩。在这一市场中,智谱已经建立了较深的客户基础,因此在国内B端市场的存在感比较强。
如果讨论模型本身,则不能简单地用一个“谁更强”来概括,因为不同能力的发展速度并不一样。
当前最容易缩小差距的是那些边界清晰、评价标准明确的能力,例如代码生成。这类任务更依赖数据覆盖和工程优化,只要持续投入训练资源,国内头部模型在代码生成、程序理解和Bug修复等专项测试中进入全球第一梯队,是可以预期的。
真正拉开差距的,是那些没有固定答案、需要持续决策的任务,特别是Agent。当模型需要自己决定下一步做什么、什么时候查资料、什么时候调用工具、什么时候修改方案,并能够根据执行结果不断调整策略时,对模型整体能力提出了更高要求。目前国际领先模型在这一类复杂任务上的成熟度仍然更高。
更高一层,是模型的整体智能水平。这不仅取决于知识储备,还涉及推理、语言理解、跨领域迁移以及复杂问题处理能力。智谱无疑属于国内第一梯队,但国内这一梯队竞争本身就十分激烈,DeepSeek、通义千问等模型都具备很强实力,因此智谱并没有形成绝对领先。放到全球范围内,与国际最先进模型相比,整体能力仍有提升空间。
我认为,中美模型的这种差距更多来自研发路线,而不仅仅是模型参数规模。目前国内不少模型仍然倾向于把用户请求直接映射为答案,即围绕任务本身进行推理。而海外领先模型越来越强调系统协同:先分析问题,再决定是否联网、是否识别图片、是否调用Computer Use或其他工具,然后将任务拆解成多个环节分别完成,最后再汇总结果。它们更像是在管理一个由多个能力模块组成的工作流,而不是依赖单一模型一次性完成全部工作。
回到企业采用开源模型的主要考虑,还有几个成本之外的理由。开放权重模型可以部署在自有 GPU 或私有云里,对医疗、金融、政府这类强监管场景,“数据不出域”本身就是卖点。同时,闭源 API 也出现了政治性中断风险。6 月 12 日,Anthropic 的 Fable 5 被美国出口管制指令迅速拉下线,依赖该 API 的产品直接受影响。这会让企业更愿意保留开放权重备份。
但也有人指出来,开源不是免费午餐。模型评估、故障追踪、数据保护、长期维护责任都会转到企业自己身上。许可证也麻烦:一项 arXiv 研究称,模型到应用的转换链条中约 35.5% 违反上游许可证。闭源厂商也不会坐等被替代。OpenAI 降价、发布免费开放模型 gpt-oss-120b,AWS 把 Gemma 4 放进 Bedrock,TCS 与 Mistral 合作推 Mistral Forge,都是在把开放权重纳入已有商业体系。
美国已经在政府设备上禁用 DeepSeek,参议院提案还试图把限制扩大到联邦机构和承包商,禁止使用幻方量化及其关联实体提供的应用和服务。国会也已调查包括 Airbnb 在内的美国企业使用阿里 Qwen 等中国模型的国家安全风险。正在推进的2027财年国防授权法第1651条,把原来国防部和国防供应商不能使用的模型,从DeepSeek扩大成了覆盖整个中国主流大模型生态:增加了百度、智谱、月之暗面、零一万物、MiniMax、阿里、腾讯、华为和小米等,以及所有被美国制裁、列入1260H清单、位于中国或被认定受中国控制的AI企业。这些公司开发的模型,以及未来基于这些模型微调、蒸馏出来的新模型,国防部和国防部的供应商都不能采购、部署或使用。这些都不是全面商业禁令,但会让想用中国开源模型的美国企业变得谨慎。
同时,美国政府也在给自己留后路。截至 6 月 17 日,美国暂缓将 DeepSeek、长鑫存储等一百多家中国企业列入实体清单,理由是避免升级。这说明政策工具会分层使用:政府系统先禁,承包商再收紧,出口管制和前沿模型审查作为后手。普通商业公司是否能用中国开源模型,可能要看具体的行业、数据类型、客户性质和是否涉及政府合同。
接下来有几个观察点:第一,NSA、CISA、NIST 对“危险前沿 AI 模型”的定义,会不会覆盖自托管开放权重模型。第二,DeepSeek、幻方是不是会最终进实体清单。第三,Coinbase 这种联邦注册金融机构公开使用中国开放权重模型后,会不会被美国监管问询。第四,GLM、Kimi、DeepSeek、Qwen 这类模型能否在英国AI安全研究所的高难度网络靶场上拿出结果。前三个决定能不能用,第四个决定美国有没有更强理由去管。
声明:本文来自东不压桥研究院,版权归作者所有。文章内容仅代表作者独立观点,不代表安全内参立场,转载目的在于传递更多信息。如有侵权,请联系 anquanneican@163.com。