#国产编码模型新王##智谱GLM4.6代码国内最强#
好好好,都赶着国庆节之前开卷是吧。
前脚DeepSeek更新到了V3.2,现在智谱又更新了——
正式推出GLM-4.6,代码能力直接推到了国内最强。【图1】
根据智谱的测试结果,他们在Claude Code环境下进行了74个真实场景编程任务测试:GLM-4.6实测超过Claude Sonnet 4,超越其他国产模型。
类似的结果还出现在了其它测评中。
例如在通用能力评测上,GLM-4.6在AIME 25、GPQA、LCB v6、HLE、SWE-Bench Verified、BrowseComp、Terminal-Bench、τ^2-Bench、GPQA,这八大榜单中大部分都已经对齐了Claude Sonnet 4,国内第一。【图2】
分数高还只是一方面,智谱的GLM-4.6甚至还把"平均token消耗"给打了下来——比GLM-4.5节省30%以上,为同类模型最低。【图3】
而且智谱这次还大大方方地把全部测试题目与Agent轨迹亮了出来,方便大家复现验证:
http://t.cn/A6Fxkfvi
有一说一,卷,是真的卷。【图4】
根据量子位的老传统,新模型一出,那必须是得安排一波实测:http://t.cn/AX79Mtrx
