Groq部分,这部分也讲一下,这部分其实是分2部分逻辑的。甚至是可以分3部分的。
第一部分,是SRAM。这部分的话,主要原因还是Groq在芯片内部集成了230M SRAM的大小,大家觉得是SRAM进行的推理变化。当然了,本身逻辑是没有太大问题的,因为当下的芯片,大部分在芯片内其实也是集成有SRAM的,但是大小都比较小,大概都是1M到10M之间,前几年的时候还是128K到1M之间。既然Groq直接集成到了230M,那么这个直接增量确实是几十倍甚至是上百倍了。。
那么问题是为什么之前大家不这么做呢?因为SRAM作为靠近CPU的最近的存储单元,这部分其实做芯片集成的时候,会非常贵,所以才有了除SRAM之外的第二级ram,DRAM。当然了存储的分级,从CPU内部其实就有片内ram和Cache,cache分L1 Cache和L2 cache,但是这些容量更小,如果扩容,成本更贵。。sram作为cpu片外的一级ram,相对来说,比片内便宜,比更远的dram贵。。但是因为更靠近cpu,所以访问速度自然更快,速度是dram的几十倍,但是成本也是dram的几倍,所以既然人家搞HBM,用dram搞,那么只要你的成本能扛得住,你用更靠近cpu的sram搞,那你的速度就天然比DRAM更快。。所以sram的逻辑在这里。。
第二层逻辑,存算一体。。。Groq其实本身是一个LPU芯片,它的方案是基于SRAM实现的存算一体,当然,业内可可以叫近存计算。。这个不多展开了,以前都科普过。
那么存算一体目前实现的路线其实也是有2条的,一是基于介质,比如有基于Nor flash的,比如xx股份的存算一体,比如23年清华大学出的那个忆阻器的存算一体方案。有基于SRAM方案的,比如xx科技的AI存算一体SoC,这个去年科普过,也都做了3-5倍。还有一级市场的一些明星项目也是基于这个方案的,,华为的昇腾AI芯片里其实用的也是基于SRAM的存算一体方案。。还有基于DRAM的方案,比如xxxx的cube方案,就是基于DRAM的存算一体,,,还有基于RRAM,ReRAM以及PRAM的存算一体,这都是基于介质方案的。。
第二种是直接基于新材料方向,这个是用二维材料甚至是三维材料做堆叠。。目前市场没有,都在一级市场,国内有一家,更多还是在美国。
第三部分的话,那就是AI推理,本身LPU以及ASIC方案,最终都是为了AI推理。。。这部分国内强一点的,比如xxxx,比如xx股份,xx科技等。目前市场还没有引申到这部分来。。
存算一体芯片以及端侧ASIC这部分是明年的端侧AI的阵眼。
发布于 上海
