LPU与Vera Rubin整合

LPU + Vera Rubin
“我们想出了一个绝妙的主意，”黄仁勋解释道，“我们将推理过程完全重新架构。我们把适合Vera Rubin的工作放在Vera Rubin上，然后把解码生成、低延迟、带宽受限的部分放到LPU上。
Groq 3 LPU每个芯片都集成了500MB的SRAM。这种内存也用于CPU和GPU的超高速缓存。虽然与每个Rubin GPU上容量高达288GB的HBM4相比，这显得微不足道，但这块SRAM可提供150 TB/s的带宽，远高于HBM的22 TB/s。对于带宽敏感型AI解码操作而言，Groq 3芯片带宽的大幅提升为推理应用带来了诱人的优势。
一个为高吞吐量，一个为低延迟，产生了令人震惊的效果：每兆瓦功耗的推理吞吐量最高可提升35倍，万亿参数模型的收益机会最高可提升10倍。
英伟达构建了包含256个Groq 3 LPU的Groq 3 LPX机架。该机架提供128GB的SRAM和40 PB/s的推理加速带宽，并通过每个机架640 TB/s的专用扩展接口将这些芯片连接起来。
大规模部署时，LPU 集群可作为一个巨型单处理器，实现快速、确定性的推理加速。与Vera Rubin NVL72 集成，Rubin GPU 和 LPU 通过联合计算每个输出标记的 AI 模型每一层，显著提升解码速度。LPX采用全液冷设计，基于MGX基础设施构建，可无缝集成到将于今年下半年推出的下一代Vera Rubin AI工厂中。

发布于上海