欧巴聊AI
26-05-22 12:56 微博认证:AI博主

这个真是厉害了。

智谱发布GLM-5.1高速版 GLM-5.1-highspeed API,模型输出速度达到 400 tokens/s,直接刷新了全球大模型厂商 API 的速度上限。

这意味着,鱼和熊掌可以兼得,旗舰级大模型进入极致低延迟推理时代。

有哪些应用场景呢?

AI编程、实时交互、商业决策、实时语音等对响应延迟要求极高的场景,现已面向智谱MaaS平台部分企业客户开放服务。

背后的技术,是由智谱 GLM 团队与 TileRT 团队在推理、调度、基建三个层面联合优化实现,其核心技术突破在于:静态编排取代动态调度,微任务与访存优化,多卡拓扑特化。

说人话就是,传统 GPU 跑大模型,就像一个厨师切完半根葱,就跑去大冰柜(显存)存一下,再跑回来拿半头蒜,算力全被来回搬东西和等待给浪费了。

TileRT 这个技术的本质,就是把一整套做菜工序死死钉在案板(缓存/寄存器)上。数据一次性读进来,一气呵成算到底,中间绝不去大冰柜翻东西,彻底榨干了显卡的通信带宽和计算潜力。

真的夯爆了。

传送门:www.tilert.ai/blog/speed-as-the-next-scaling-law-zh.html

#HOW I AI##科技先锋官##智谱#

发布于 北京