梁斌分析AI内存架构

过去十几年,以CPU为核心的服务器,内存架构其实只有两层:内存(DRAM)负责"算得快",SSD负责"装得多",中间泾渭分明。

进入AI时代,服务器改以GPU为核心,单纯两层完全不能打。于是内存被拆成了一条四层阶梯——HBM、SOCAMM、HBF、SSD,从紧贴GPU的最快一层,一路向外延伸到最便宜的存储层。

第一层 HBM(高带宽内存)。它通过先进封装直接堆叠、贴在GPU上,读写都极快,是模型真正"开算"的地方，注意力机制里的KV、海量中间数据都在这里高频进出。代价是容量小、最贵,装不下太多东西。

第二层 SOCAMM(模块化系统内存)。推理不是一锤子买卖,而是一条很长的链条,每一环都会从HBM里"推出"一批动态数据,需要一块又快、又比HBM大得多的内存来承接和中转。SOCAMM就扮演这个角色:它本质是低功耗的LPDDR,以可插拔模块的形式贴在CPU一侧,容量做到TB级、功耗还低,是HBM和大容量存储之间的"缓冲带"。

第三层 HBF(高带宽闪存)。除了动态数据,GPU还要反复读取大量"静态"数据——最典型的就是模型参数。这类数据写一次、读无数次:用昂贵的HBM装太奢侈,用慢速SSD又拖累速度。HBF的思路很巧:底层用NAND闪存,却套上和HBM一样的堆叠封装、同样贴在GPU旁边,做到读带宽接近HBM、容量却是它的十几倍、成本还相近。它专治"HBM装不下的海量只读数据"。

第四层 SSD。最外圈,存放用户数据、日志这些杂项和冷数据,带宽最低、容量最大、每GB最便宜,是整个体系的地基。

竞争格局上,各层的领头羊各不相同:HBM是SK海力士领先,SOCAMM由镁光抢得先发,HBF由闪迪主导并绑定海力士,SSD则是三星称王。规律很清晰——越往外,越便宜、容量越大。

这四层在AI存储基建里缺一不可。但若论投资想象力,我个人的判断是:SSD作为最外层、最商品化的一环,需求弹性相对最低;HBM产能受限、格局已基本落定,上行空间多半已被定价。真正最具想象力的,反而是夹在中间的SOCAMM和HBF——它们卡在"HBM太贵、SSD太慢"的黄金缝隙里,既是全新的增量市场,标准与格局又远未尘埃落定。

发布于江苏