向小田 26-03-17 09:16
微博认证:2024微博年度新知博主 科技博主

英伟达收购了Groq之后,在这次GTC大会上推出了推理专用加速器LPU。咱们来看下这个LPU的特点:
1、SRAM-based内存架构。主要是不用HBM了,改用片上SRAM,带宽高延迟快。
2、确定性执行机制。主要是消除了core计算等待的时间,流水线效率大幅提升。
3、因为SRAM功耗低,所以能耗比也高。
但是LPU主要是内存容量小,所以不能都靠它来做推理,只能把一部分推理任务(decode)给它,这样速度快的效果就发挥出来了。
在prefill的阶段还是要用GPU。
英伟达的混合架构就是GPU和LPU混用。这样就不需要大量堆LPU了,也用不起啊。
这个思路,华为之前已经设计了。26年华为主要是分型号推的两个AI芯片产品,950PR和950DT,分别做prefill和decode。

发布于 上海