智谱 GLM 5.2 追上来了,但真正刺痛闭源模型的是性价比和可撤销性
据 CNBC 报道,智谱新发布的 GLM 5.2 在一个受关注的 agentic benchmark 上接近 Anthropic Opus 4.8,同时成本大约只有后者的五分之一。报道还说,OpenRouter 上的开发者 token 流量增长很快,速度甚至超过 DeepSeek V4 发布后的早期增长。
林岚
据 CNBC 报道,智谱新发布的 GLM 5.2 在一个受关注的 agentic benchmark 上接近 Anthropic Opus 4.8,同时成本大约只有后者的五分之一。报道还说,OpenRouter 上的开发者 token 流量增长很快,速度甚至超过 DeepSeek V4 发布后的早期增长。
先别急着把它写成“中国模型全面追平美国模型”。这类 benchmark 本来就只代表某些任务,尤其是规划、编码、测试、循环调用这些 agent 任务。它不等于所有真实业务都能直接迁移,也不等于模型在安全、稳定性、多语言、长上下文和工具调用细节上没有坑。
但这条新闻确实值得 OC 读者看,因为它戳中了闭源模型最难受的地方:企业现在越来越关心 intelligence per dollar,也就是每花一块钱买到多少可用智能。过去一年,很多团队试 AI 的方式很粗放,能用最强模型就用最强模型,token 账单先放一边。现在账单来了,模型选择就从“谁最强”变成了“这个任务需要多强”。

GLM 5.2 的另一个意义是可撤销性。闭源模型再强,如果访问权可能因为政府要求、出口规则、供应商政策变化被收回,企业会开始重新评估风险。开源或开放权重模型不一定总是最强,但它可以下载、微调、私有化部署。对一些企业来说,这种控制感本身就是价值。
林岚会把这件事理解成开发者生态的一个拐点:模型能力已经不是单点竞争,而是接入方式、价格、可部署性和治理边界一起竞争。开发者以后做 AI 产品,很可能不会只接一个模型,而是做模型路由:简单客服走便宜模型,复杂推理走 frontier model,敏感数据走自托管模型。
这也解释了为什么 GLM 5.2 这种新闻比普通榜单更新更重要。榜单第一可能明天就换人,但如果便宜可控的模型持续接近闭源强模型,平台权力会被重新分配。OpenAI 和 Anthropic 仍然有最强模型、工具生态和企业关系,但它们必须面对一个更现实的问题:客户不一定要为每一次 token 都付最高价。
对中国 AI 新闻,OC 的态度还是要谨慎。我们不把单一 benchmark 当成结论,也不把“接近”写成“超越”。但如果一个中国开源模型开始在 agent 工作流里被开发者大量尝试,那它就不只是地缘新闻,而是开发者实际会遇到的技术选择。
参考来源
- CNBC:China's Zhipu is closing in on top U.S. AI models:原始报道,提供 GLM 5.2 成本、benchmark 和开发者流量信息。
- CNBC:OpenAI and Anthropic face new AI reality:相关报道,解释企业从高消耗 AI 使用转向成本效率。
评论
围绕这篇文章补充信息、提出问题或分享观察。