彼得罗浮斯基 25-12-28 07:57
微博认证:投资内容创作者

美国银行这篇报告想法和我昨天的文章不谋而合。

美国银行的研究表明,从现在开始,英伟达准备将推理视为其一流产品线,而不仅仅是“GPU 的其他功能”。

英伟达已经赢得了训练堆栈,现在它希望推理堆栈也保持“英伟达式”的结构,即使客户开始想要的不是通用 GPU 的芯片。

Groq 的 LPU(语言处理单元)是一款旨在快速、稳定地生成令牌的芯片。这与 GPU 的设计理念截然不同,GPU 旨在灵活应对各种工作负载。

美国银行称 Groq 的策略是“互补的”,因为其最终目标不是“取代英伟达 GPU”,而是“与它们并肩作战”。

美国银行的研究甚至详细阐述了这种未来架构的构想:GPU 和 LPU 将集成在一个机架中,并通过 NVLink 连接在一起。如果英伟达能够实现这一构想,就能让客户继续购买英伟达的机架级平台,而不是将其他厂商的推理设备和英伟达的训练设备混用。

Groq 的 LPU 芯片依赖大量的片上 SRAM 来存储模型权重和工作数据,这使得每个令牌的访问速度都非常快。但缺点是扩展性不足:这种大量使用 SRAM 的方法非常适合处理范围较窄的“可预测推理”任务,但它可能无法像英伟达最新的 GPU 系统那样完美地扩展,后者使用大量的高带宽内存池来实现大规模吞吐量。因此,两者的“互补”关系在于:LPU 用于紧凑、可预测的服务,而 GPU 则用于处理训练和复杂多样的推理工作负载。

发布于 上海