鲸选AI
26-06-17 17:03 微博认证:AI鲸选社官方微博

今天智谱开源了新旗舰GLM-5.2 ,MIT 协议开源,主打 1M 上下文和长程任务。Code Arena 得分1595,全球可用模型排第一(去掉可用定语,第一是Claude Fable 5)。

在官方文档给的数据中,FrontierSWE 比 Opus 4.8 低 1%,比 GPT-5.5 高 1%,比Opus 4.7 高 11%。

Terminal-Bench 2.1 比 Opus 4.8 低 4%,但比 GLM-5.1 提升了 17.5%。

SWE-Marathon 上比 Opus 4.8 低了 13%,这个差距不小,他们自己也说"确实还需要进一步提高"。

在benchlm.ai的对比中,GLM-5.2得分为94,高于Opus 4.7的84。

GLM-5.2在Coding效果确实好了不少。

我自己上手试了一下,做了一个鞭炮鱼缸的HTML,主要考察模型为100个鞭炮的爆炸链设计事件队列调度系统以防止时序失真,在同一帧内管理碎屑、爆炸粒子、火焰,烟雾和屏幕闪光五类粒子的管理和处理,以及搭建包含透明玻璃箱折射与多层光照的完整3D场景的综合工程能力。

从视频中可以看到,在鞭炮爆炸的事件的设计上,爆炸整体流畅性和爆炸粒子效果的美观度还是不错的。

但是爆炸的烟雾效果并没有显示出来,整体效果更像是烟花鱼缸。不知道是理解错误,还是模型审美的问题。

具体效果对比其他模型,可以发现,deepseek的粒子更像爆米花 ,整体爆炸的过程中,在鞭炮没有完全落地的情况下,已经提前爆炸了,在事件设计上,存在问题。

GLM-5.1的爆炸事件设计存在不连贯的问题,而且爆炸效果过于简单,没有烟雾和爆炸粒子,只是一个小光团。

mimo v2.5-pro的鞭炮爆炸更像被精准制导了,而且整体效果卡顿。

k2.6整体效果没什么问题,在烟雾效果方面升起后逐渐散开的渲染效果也是符合实际的。

整体来说,GLM-5.2的进步还是比较明显的,而且在前端 Coding方面,已经尽可能打达到Opus 4.8的部分任务能力,而且泛化性不错。就是买不到Coding plan。

发布于 北京