胜天半子股乘风 26-03-17 08:58
微博认证:财经博主

LPU + Vera Rubin
“我们想出了一个绝妙的主意,”黄仁勋解释道,“我们将推理过程完全重新架构。我们把适合Vera Rubin的工作放在Vera Rubin上,然后把解码生成、低延迟、带宽受限的部分放到LPU上。
Groq 3 LPU每个芯片都集成了500MB的SRAM。这种内存也用于CPU和GPU的超高速缓存。虽然与每个Rubin GPU上容量高达288GB的HBM4相比,这显得微不足道,但这块SRAM可提供150 TB/s的带宽,远高于HBM的22 TB/s。对于带宽敏感型AI解码操作而言,Groq 3芯片带宽的大幅提升为推理应用带来了诱人的优势。
一个为高吞吐量,一个为低延迟,产生了令人震惊的效果:每兆瓦功耗的推理吞吐量最高可提升35倍,万亿参数模型的收益机会最高可提升10倍。
英伟达构建了包含256个Groq 3 LPU的Groq 3 LPX机架。该机架提供128GB的SRAM和40 PB/s的推理加速带宽,并通过每个机架640 TB/s的专用扩展接口将这些芯片连接起来。
大规模部署时,LPU 集群可作为一个巨型单处理器,实现快速、确定性的推理加速。与Vera Rubin NVL72 集成,Rubin GPU 和 LPU 通过联合计算每个输出标记的 AI 模型每一层,显著提升解码速度。LPX采用全液冷设计,基于MGX基础设施构建,可无缝集成到将于今年下半年推出的下一代Vera Rubin AI工厂中。

发布于 上海