美股存储盘前暴跌原因:Google又偷偷放了个大招。
2026年第一个王炸算法:TurboQuant
简单说,这玩意儿就是来解决大模型「内存刺客」问题的——KV Cache。
你们知道大模型跑长文本的时候最吃内存的是什么吗?不是模型参数本身,是那个KV缓存。每个token都要存一份Key和Value,几千个token下来,显存直接爆炸。
Google的解决方案是:把它压缩到只有3比特。
官方数据:
1、内存缩减 6倍起
2、推理速度提升 8倍(H100上)
3、精度零损失
注意是零损失,不是「基本持平」「略有下降」。这就很变态了。
不过这会情绪已经修复,闪迪快V回来了。
根据杰文斯悖论,成本越低,就越普及,反而会用的越多。
长远仍然是利好存储的。
#谷歌新算法实现约6倍内存节省#
发布于 广东
