投星资产 25-12-25 18:49
微博认证:深圳市前海朗马投星贸易发展有限公司 投资总监

英伟达还是挺牛逼的,不是收购 Groq 公司,签了一个技术授权协议,把所有人都挖走了,Groq公司剩下一个空壳,团队都转去了英伟达,帮助英伟达执行落地。

这样子最大的好处,有效规避反垄断审查,看来达子对Groq技术,GPU+SRAM快速推理,回避HBM技术路线,有相当浓厚的兴趣。

这也是英伟达对HBM+cowos路线,推理环节可能所做的替代战略。

毕竟200亿美元也不是个小收购,同志们要战略重视SRAM了啊。

达子干脆也把北京SRAM收购,把产能直接承包下来算球了啊。

为什么Groq如此重要?

成立于2016年的Groq由谷歌TPU核心开发者Jonathan Ross创立,公司自研的LPU推理芯片是本次合作的核心价值所在。 区别于英伟达通用型GPU,LPU专为AI推理场景深度优化,凭借确定性架构、片上SRAM内存设计等核心技术,实现了超低延迟、超高能效与极速推理速度。在主流大语言模型运行中,LPU推理速度可达英伟达H100 GPU的5至18倍,首token响应时间仅0.2秒,还能有效降低算力成本,解决传统GPU在推理环节的“内存墙”与高延迟问题。

1/ Groq架构绕开了HBM;走的是SRAM的架构 • SRAM的速度是HBM的10倍左右; • HBM需要CoWos封装,CoWos一直是目前供应链的重大瓶颈之一。 • SRAM的性能好,但是目前一直解决不了工艺成本问题,成本巨贵。成本问题是这条路线图想象空间的最大天花板。

2/ Groq的SRAM,对于英特尔代工更加友好;18A工艺搞SRAM至少盼头更近一些。没有COWOS限制,芯片的扩产就可以激进许多。

3/ Groq可以通过NVLink来做互连,用来搞搞推理,解决掉需要“固定”+“确定性”+“跑量跑速”的一部分;

Jonathan Ross今年9月访谈,他说虽然SRAM的单价比HBM贵,但从整个系统层面,跑同样的模型,SRAM所需的量不及HBM多,所以系统级别价格可能是更便宜的。

用片上 SRAM 取代 HBM 访问,通过更大的片上 SRAM / scratchpad(以及更明确的显式数据搬运)来减少对外部内存随机访问与带宽峰值的依赖。同时因为SRAM过于昂贵单卡无法独立放下LLM,通过互联实现大模型推理 3)把“吞吐/延迟可预测性”放在首位,柜间互联chip to chip不用交换机,采用蜻蜓架构与大量光模块。此前主要通过三星实验性流片,并且一度实现推理延迟世界第一。

随着英伟达的入局,SRAM存储有望迎来爆发和加速。

发布于 北京