英伟达与Groq芯片策略互补

美国银行这篇报告想法和我昨天的文章不谋而合。

美国银行的研究表明，从现在开始，英伟达准备将推理视为其一流产品线，而不仅仅是“GPU 的其他功能”。

英伟达已经赢得了训练堆栈，现在它希望推理堆栈也保持“英伟达式”的结构，即使客户开始想要的不是通用 GPU 的芯片。

Groq 的 LPU（语言处理单元）是一款旨在快速、稳定地生成令牌的芯片。这与 GPU 的设计理念截然不同，GPU 旨在灵活应对各种工作负载。

美国银行称 Groq 的策略是“互补的”，因为其最终目标不是“取代英伟达 GPU”，而是“与它们并肩作战”。

美国银行的研究甚至详细阐述了这种未来架构的构想：GPU 和 LPU 将集成在一个机架中，并通过 NVLink 连接在一起。如果英伟达能够实现这一构想，就能让客户继续购买英伟达的机架级平台，而不是将其他厂商的推理设备和英伟达的训练设备混用。

Groq 的 LPU 芯片依赖大量的片上 SRAM 来存储模型权重和工作数据，这使得每个令牌的访问速度都非常快。但缺点是扩展性不足：这种大量使用 SRAM 的方法非常适合处理范围较窄的“可预测推理”任务，但它可能无法像英伟达最新的 GPU 系统那样完美地扩展，后者使用大量的高带宽内存池来实现大规模吞吐量。因此，两者的“互补”关系在于：LPU 用于紧凑、可预测的服务，而 GPU 则用于处理训练和复杂多样的推理工作负载。

发布于上海