400 TPS!实测智谱 GLM-5.1 以10倍速狂飙!
智谱刚刚发布了 glm-5.1-highspeed! 赶紧拿脚本测了一下, 输出速度能干到 300 tps+, 首 token 延迟稳定在1s.
这个数据猛到什么程度... 同样的脚本我测了下 glm-5.1 的接口, 输出速度只有 35 tps, 首 token 延迟干到了 9s. 基本是10倍速提升.
使用 glm-5.1 编程或者养龙虾/爱马仕的同学可以直接搞套餐开这个新模型了. 能做到直接吐字不用等.
GLM-5.1 单次激活40B, 按照bf16精度计算, 即使不考虑 kvcache 也要80GB的显存, 那么达到 35 tps, 这就是 80x35= 2.8TB/s 的显存带宽. 而如果拉升到 300 tps, 那就是 80x300=24TB/s 的显存带宽.
如果按照 H100 SXM: 3.35 TB/s 计算, 之前单卡的带宽就能达到了, 现在需要8卡的张量并行才可以(当然张量并行也能提升请求并行度).
结果官方发布的技术文档更炸裂, 他们跟 TileRT 团队合作, 从底层把推理链路重做, 直接把显卡性能榨干了!
简单说, 传统推理像流水线工厂: CPU 当调度器, 一层层发指令给 GPU, 算完一层把结果写回显存, 再读出来算下一层, 中间还要不停同步. 大量时间其实耗在这些"调度 + 搬运"上, 而不是纯计算.
TileRT 的思路是反着来的: 编译阶段就把整个推理流程编排好, 变成一个常驻 GPU 的大 kernel, 推理启动后基本只 launch 一次, 后面 GPU 自己跑.
单卡里面像计算、IO、通信都拆成更小的 tile 级任务; 中间结果尽量不走大显存, 能在寄存器、共享内存、L2 cache 里直传就直传.
多卡则进行分工, 比如 GPU 0 专门干 Sparse Indexer, GPU 1–7 跑 MLA 注意力主干. (另外还有很多优化细节, 大家可以看官方发布的技术文档)
上面这些全都不用 CPU 再深度参与了, 所以提升了大量的性能.
#HOW I AI##glm51##glm51highspeed##智谱##GLM#
