#存储芯片板块暴跌#
这场波动的导火索来自一篇由谷歌研究院即将在国际学习表征会议(ICLR 2026)上正式亮相的学术论文。谷歌推出的新型AI内存压缩技术“TurboQuant”,宣称可将大语言模型(LLM)推理中的缓存内存占用压缩至六分之一,并在英伟达H100 GPU上实现最高8倍的性能加速。
目前,资本市场将其解读为对存储硬件需求的致命一击,但在恐慌性抛售背后,长期真实影响又会如何?
“Pied Piper”走进现实
TurboQuant究竟解决了什么问题?
当前大模型运行时的核心瓶颈之一在于“键值缓存”(KV Cache)。简单来说,当用户与AI对话时,模型需要记住之前聊过的内容(上下文),这部分临时存储的数据就是KV Cache。随着大模型上下文窗口从几千Token膨胀至百万甚至千万级别,KV Cache对内存的消耗呈指数级增长,成为制约推理成本的关键。
TurboQuant本质上是一种极致的量化压缩算法。传统量化方法需要在压缩精度和额外存储开销之间妥协,而谷歌团队通过两项创新PolarQuant(极坐标量化)和 QJL(量化JL变换)实现了在“零损失”的前提下将KV Cache压缩至3-bit精度。
有业内人士将这一突破比作HBO经典美剧《硅谷》中那家凭借“无损压缩算法”颠覆行业的虚构创业公司Pied Piper。Cloudflare首席执行官更是将其称为谷歌“DeepSeek时刻”,认为其有望像DeepSeek一样,通过极致效率大幅拉低AI的运行成本。
“条件反射”式抛售
对于长期沉浸在“算力即权力”“存力即国力”叙事中的资本市场而言,这项技术的问世无疑触动了敏感的神经。
如果单张显卡的内存吞吐效率被成倍放大,各大云服务商和企业客户未来对DRAM和HBM(高带宽内存)的物理采购量是否会断崖式下滑?这种逻辑推导直接导致了资金的避险行为。
这并非是存储芯片股的首次技术面恐慌。2025年初,DeepSeek发布低训练成本模型时,也曾引发市场对算力硬件需求的质疑。TurboQuant被视为同一逻辑的延续。“以软代硬”正在从故事变为现实。
