英伟达与Groq技术合作

英伟达还是挺牛逼的，不是收购 Groq 公司，签了一个技术授权协议，把所有人都挖走了，Groq公司剩下一个空壳，团队都转去了英伟达，帮助英伟达执行落地。

这样子最大的好处，有效规避反垄断审查，看来达子对Groq技术，GPU+SRAM快速推理，回避HBM技术路线，有相当浓厚的兴趣。

这也是英伟达对HBM+cowos路线，推理环节可能所做的替代战略。

毕竟200亿美元也不是个小收购，同志们要战略重视SRAM了啊。

达子干脆也把北京SRAM收购，把产能直接承包下来算球了啊。

为什么Groq如此重要？

成立于2016年的Groq由谷歌TPU核心开发者Jonathan Ross创立，公司自研的LPU推理芯片是本次合作的核心价值所在。区别于英伟达通用型GPU，LPU专为AI推理场景深度优化，凭借确定性架构、片上SRAM内存设计等核心技术，实现了超低延迟、超高能效与极速推理速度。在主流大语言模型运行中，LPU推理速度可达英伟达H100 GPU的5至18倍，首token响应时间仅0.2秒，还能有效降低算力成本，解决传统GPU在推理环节的“内存墙”与高延迟问题。

1/ Groq架构绕开了HBM；走的是SRAM的架构 • SRAM的速度是HBM的10倍左右； • HBM需要CoWos封装，CoWos一直是目前供应链的重大瓶颈之一。 • SRAM的性能好，但是目前一直解决不了工艺成本问题，成本巨贵。成本问题是这条路线图想象空间的最大天花板。

2/ Groq的SRAM，对于英特尔代工更加友好；18A工艺搞SRAM至少盼头更近一些。没有COWOS限制，芯片的扩产就可以激进许多。

3/ Groq可以通过NVLink来做互连，用来搞搞推理，解决掉需要“固定”+“确定性”+“跑量跑速”的一部分；

Jonathan Ross今年9月访谈，他说虽然SRAM的单价比HBM贵，但从整个系统层面，跑同样的模型，SRAM所需的量不及HBM多，所以系统级别价格可能是更便宜的。

用片上 SRAM 取代 HBM 访问，通过更大的片上 SRAM / scratchpad（以及更明确的显式数据搬运）来减少对外部内存随机访问与带宽峰值的依赖。同时因为SRAM过于昂贵单卡无法独立放下LLM，通过互联实现大模型推理 3）把“吞吐/延迟可预测性”放在首位，柜间互联chip to chip不用交换机，采用蜻蜓架构与大量光模块。此前主要通过三星实验性流片，并且一度实现推理延迟世界第一。

随着英伟达的入局，SRAM存储有望迎来爆发和加速。

发布于北京