谷歌发布TurboQuant

大模型狂飙，内存不够用？
谷歌TurboQuant压缩键值缓存，8倍性能提升，6倍内存节省，AI算力瓶颈要破？
今天，谷歌发布了一款压缩算法TurboQuant，宣称能在不重新训练或微调模型的情况下，将大语言模型的键值缓存压缩至3bit精度，实现约6倍的内存节省，同时在英伟达H100加速器上，带来最高约8倍的性能提升。
当大模型的上下文窗口越开越大，内存正成为AI系统最昂贵的瓶颈。谷歌这一刀，砍在了痛点上。
1. 它解决了什么问题？
大语言模型在处理长文本时，需要存储大量的键值缓存，这些缓存随着上下文窗口扩大而激增，成为主要的内存瓶颈。一个100万token的上下文窗口，光缓存就可能吃掉几十GB的显存。TurboQuant把键值缓存从常规的16bit或8bit压缩到3bit，内存占用直接砍到六分之一。
2. 为什么能做到？
传统量化方法往往需要重新训练或微调模型，才能保证精度不下降。TurboQuant的厉害之处在于，它无需重新训练，直接对现有模型进行压缩，同时基本保持模型准确率不受影响。这对Gemma、Mistral等开源模型同样有效。
3. 性能提升从哪来？
内存占用少了，单位时间内能处理的请求就多了。在H100上的测试显示，与未量化的键向量相比，TurboQuant最高可实现约8倍的性能提升。这意味着同样的硬件，能跑更多的并发，处理更长的上下文。
4. 不只是大模型，还能服务搜索引擎。TurboQuant的应用范围不止于大语言模型，还包括支撑大规模搜索引擎的向量检索能力。当向量数据库的内存占用降下来，搜索服务的响应速度和经济性都会提升。谷歌计划在4月的国际学习表征会议上展示这项技术。
5. 对行业意味着什么？
内存瓶颈一直是AI算力的隐形天花板。HBM贵到离谱，产能还被英伟达包圆。TurboQuant这类压缩算法，等于是在硬件之外开辟了软优化的路径。不用换卡，就能让现有硬件跑得更快、更省、更大。这对中小开发者尤其友好。
投资逻辑：
算法压缩技术突破，会降低AI应用的门槛。更多开发者能用得起大模型，推理成本下降，应用场景拓宽。长期看，算力需求不会减少，但单位算力能做的事会更多。关注AI应用层、模型部署优化、边缘计算等方向。
当大家都在卷算力、抢HBM，谷歌把目光投向了内存压缩。3bit精度，6倍节省，8倍性能。这不是硬件堆料，是算法榨油。大模型的时代，拼的不仅是堆多少卡，更是怎么把每一块钱算力用到极致。你觉得下一个AI突破会来自硬件还是软件？

发布于广东