量子位
26-06-17 10:47 微博认证:量子位官方微博

#智谱正式开源GLM-5.2##GLM-5.2拿下AI编程第一#

在Coding这件事上,国产AI又famous了一下。

因为刚刚,在Claude Fable 5之下,开源界里拿下了AI编程第一(全球第二):【图1】。

不仅Arena官方用“令人难以置信的里程碑”来形容GLM-5.2取得的成绩,很多网友也是直呼“疯狂”:【图2】。

不仅如此,在专门评测模型品味(taste)的Design Arena上,GLM-5.2取得全球第一的表现。【图3】

以及,在八项权威基准测试中,GLM-5.2的表现也是比较亮眼:【图4】。

从结果上来看,国产、开源的大模型,可以说在Coding这件事上,首次跻身模型全球御三家(Claude、OpenAI和智谱)。

要知道,此前提到AI界的御三家,那大概率指向的是Claude、OpenAI和谷歌,不过这一次,从实打实的榜单能力来看,谷歌的Gemini实实在在地被GLM淘汰掉了。【图5】

而且这几天国外各大博主陆陆续续开始了各种实测。

当然,实测的主角不只是GLM-5.2,他们还把GPT-5.5 High、Opus 4.8 High和Kimi K2.7 Code拉来一起同台竞技。

先说结论:GLM 5.2表现得极其出色。【图6】

这位博主认为这类测试是在X上比较能体现AI实力的那种,而GLM-5.2的表现已经接近Claude Opus 4.8。

无独有偶。

另一位外国博主同样做了类似的实测,GLM-5.2依旧是稳稳输出,让他直呼道:This is crazy.【图7】

但体感和口碑还只是一方面。

若是深挖一下GLM-5.2,它的亮点还包括:

支持真正可用的1M上下文,并在长程任务中继续保持领先。【图8】

换句话说,现在的GLM-5.2可以一口气“吃”下大项目级上下文、跨数小时自主推进。在很长一段时间里,Opus 级别的长任务与大型开发任务,是国产模型与海外旗舰之间很大的gap。

那么当它走进真实工作环境,效果如何?

一波实测,走起~http://t.cn/AXajl3CJ