这个真是厉害了。智谱发布GLM-5.1高速版 GLM-5.1-highspeed API，模型输出速度达到 400 tokens/s，直接刷新了全球大模型厂商 API 的速度上限。这意味着，鱼和熊掌可以兼得，旗舰级大模型进入极致低延迟推理时代。有哪些应用场景呢？AI编程、实时交互、商业决策、实时语音等对响应延迟要求极高

这个真是厉害了。

智谱发布GLM-5.1高速版 GLM-5.1-highspeed API，模型输出速度达到 400 tokens/s，直接刷新了全球大模型厂商 API 的速度上限。

这意味着，鱼和熊掌可以兼得，旗舰级大模型进入极致低延迟推理时代。

有哪些应用场景呢？

AI编程、实时交互、商业决策、实时语音等对响应延迟要求极高的场景，现已面向智谱MaaS平台部分企业客户开放服务。

背后的技术，是由智谱 GLM 团队与 TileRT 团队在推理、调度、基建三个层面联合优化实现，其核心技术突破在于：静态编排取代动态调度，微任务与访存优化，多卡拓扑特化。

说人话就是，传统 GPU 跑大模型，就像一个厨师切完半根葱，就跑去大冰柜（显存）存一下，再跑回来拿半头蒜，算力全被来回搬东西和等待给浪费了。

TileRT 这个技术的本质，就是把一整套做菜工序死死钉在案板（缓存/寄存器）上。数据一次性读进来，一气呵成算到底，中间绝不去大冰柜翻东西，彻底榨干了显卡的通信带宽和计算潜力。

真的夯爆了。

传送门：www.tilert.ai/blog/speed-as-the-next-scaling-law-zh.html

#HOW I AI##科技先锋官##智谱#

发布于北京