karminski-牙医 26-02-11 21:16
微博认证:AI博主

GLM-5发布啦! 给大家带来实测! 国产大模型正式进入月更节奏!

GLM-4.7 才发布一个月, 智谱又掏出了 GLM-5, 这迭代速度属实离谱. 照例给大家带来编程、Agent、长上下文能力全面测试!

本次编程能力提升巨大: 新引入的鞭炮炸鱼缸测试, 要求模拟水滴/碎屑/烟雾/气泡四种粒子效果混合在流体中, 折射效果还原度已经和 Claude Opus 4.6 几乎没区别了. 鞭炮连锁爆炸测试指令遵循大幅提升, GLM-4.7 会忽略的参数 GLM-5 都能精准还原, 视觉上玻璃箱效果、色调映射达到了电影级画质. Python 杯子倒水新增了顶点碰撞检测, 甚至给2D粒子加了模拟3D高光! 大象牙膏测试实现了三层碰撞检测, 引入动画阶段机制精准还原 prompt 要求. 陀飞轮机芯也是一眼可见的提升.

Agent 能力再次刷新纪录: 硅基骑手测试 (这次订单量加了5倍!) GLM-5 拿到 ¥738.69, 对比 GLM-4.7 的 ¥571.91. 关键发现是, GLM-5 每轮对话都在跟踪剩余轮次 ("254/300, 还有46轮"), 这种元认知是 GLM-4.7 未有过的. 它甚至给自己定了个小目标 "突破700元大关", 达成后庆祝了一下就继续干活. 而 GLM-4.7 在第198轮就开香槟不干了...

长文本召回: 各长度上下文召回均 98% 以上, 但有个问题 - 不给原文时四选一蒙对率达到 51.4%, 模型甚至能脑补出哈利波特小说英文原文, 所以分数置信度存疑. 不过 Agent 测试本身上下文就超过 100K, 召回性能实际上没问题.

总结: GLM-5 编程全面进化, Agent 能力展现出自主规划意识, 视觉美学也显著提升 (这次它特别偏爱科技感的 Orbitron 字体). 这么猛的表现, 很期待接下来的 GLM-5V!

另外官方账号还发了个马的图案, 看来之前的 pony alpha 是 GLM-5 石锤了!

(P.S. 本次测试的是内测版本)

#HOW I AI# #智谱GLM5已上线##GLM5##智谱##智谱GLM##AIAgent# http://t.cn/AX5sX7Lg

发布于 北京