任凶猛 26-03-27 09:58
微博认证:AI博主

#存储芯片板块暴跌原因#

这两天美股存储芯片连续大跌,都说谷歌发布了一个TQ算法论文,把缓存利用率大幅提升了,存储危险了。

真那么牛逼吗?

谷歌的 TurboQuant (TQ) 算法确实把 LLM 推理的 KV 缓存从 16-bit 压到 3-bit(6 倍压缩),且零精度损失、无需重训,H100 上 4-bit 模式下注意力计算提速 8 倍。

但它只影响推理阶段的缓存,对模型权重、训练需求、长期存储几乎无影响;不同存储芯片受冲击差异极大,市场反应明显过度。

对 HBM(高带宽内存)来说确实短期利空,这也是这两天美光、海力士下跌的原因。

KV 缓存是 HBM 的主要 AI 推理负载之一,6 倍压缩意味着单 GPU 所需 HBM 容量可显著减少,短期需求预期下调。

但对 NAND Flash/SSD(简单理解为硬盘)影响微乎其微。

TQ 只针对易失性的 KV 缓存(推理时临时存储),而 NAND/SSD 是非易失性长期存储,用于模型权重的持久化存储(压缩后仍需保存,TQ 不影响权重),训练数据、日志、用户数据等海量冷存储。

对 SRAM(GPU内部缓存)甚至还有利好。

TQ 算法中提到的 Tiling(分块)策略,其核心目标是让更多的数据留在 SRAM(GPU 内部的高速缓存)中,减少去 HBM 搬运数据的次数。

所以,西部数据和闪迪下跌只是池鱼之殃。

好消息是,我们A股没有做HBM的公司,这时候存储芯片下跌就是机会,要把握住。

另外,这也不是什么首创独创的技术。

在 ICLR 2026 亮相的 NVIDIA 的 KVTC 算法,压缩率高达20倍(对比TQ的6倍),且已在70B模型上验证,并正在集成进vLLM和Nvidia Dynamo推理引擎。

至于存储的长期逻辑,不但没有动摇,反而更加稳固了。

你想想自己不用更贵的模型是因为不想吗?还不是因为贵,因为贵所以需求远远没有被满足。

现在这个技术本质上是直接降低推理成本的,高端大模型的token单价降低,因为价格降低就会增加需求,token消耗就会进一步加大,反过来会提升推理硬件的需求。

这是一个正向循环。

压缩技术历史上从来不减少存储需求,只会刺激更大的使用量。DVD压缩没有让人买更少硬盘,移动网络压缩没有让流量需求下降。

KV缓存压缩大规模应用后,最可能的结果是:同样的GPU去跑更大的模型、服务更多用户、撑起更长的上下文窗口——而不是采购更少GPU或存储芯片。

这就是「Cloudflare CEO称之为AI推理的DeepSeek时刻」的真正含义——效率突破会扩张而不是收缩整体需求。

发布于 广东