量子位 25-09-30 17:04
微博认证:量子位官方微博

#国产编码模型新王##智谱GLM4.6代码国内最强#

好好好,都赶着国庆节之前开卷是吧。

前脚DeepSeek更新到了V3.2,现在智谱又更新了——

正式推出GLM-4.6,代码能力直接推到了国内最强。【图1】

根据智谱的测试结果,他们在Claude Code环境下进行了74个真实场景编程任务测试:GLM-4.6实测超过Claude Sonnet 4,超越其他国产模型。

类似的结果还出现在了其它测评中。

例如在通用能力评测上,GLM-4.6在AIME 25、GPQA、LCB v6、HLE、SWE-Bench Verified、BrowseComp、Terminal-Bench、τ^2-Bench、GPQA,这八大榜单中大部分都已经对齐了Claude Sonnet 4,国内第一。【图2】

分数高还只是一方面,智谱的GLM-4.6甚至还把"平均token消耗"给打了下来——比GLM-4.5节省30%以上,为同类模型最低。【图3】

而且智谱这次还大大方方地把全部测试题目与Agent轨迹亮了出来,方便大家复现验证:

http://t.cn/A6Fxkfvi

有一说一,卷,是真的卷。【图4】

根据量子位的老传统,新模型一出,那必须是得安排一波实测:http://t.cn/AX79Mtrx