Stock掌印官 26-03-26 13:29
微博认证:动漫博主

大模型狂飙,内存不够用?
谷歌TurboQuant压缩键值缓存,8倍性能提升,6倍内存节省,AI算力瓶颈要破?
​今天,谷歌发布了一款压缩算法TurboQuant,宣称能在不重新训练或微调模型的情况下,将大语言模型的键值缓存压缩至3bit精度,实现约6倍的内存节省,同时在英伟达H100加速器上,带来最高约8倍的性能提升。
​当大模型的上下文窗口越开越大,内存正成为AI系统最昂贵的瓶颈。谷歌这一刀,砍在了痛点上。
​1. 它解决了什么问题?
大语言模型在处理长文本时,需要存储大量的键值缓存,这些缓存随着上下文窗口扩大而激增,成为主要的内存瓶颈。一个100万token的上下文窗口,光缓存就可能吃掉几十GB的显存。TurboQuant把键值缓存从常规的16bit或8bit压缩到3bit,内存占用直接砍到六分之一。
​2. 为什么能做到?
传统量化方法往往需要重新训练或微调模型,才能保证精度不下降。TurboQuant的厉害之处在于,它无需重新训练,直接对现有模型进行压缩,同时基本保持模型准确率不受影响。这对Gemma、Mistral等开源模型同样有效。
​3. 性能提升从哪来?
内存占用少了,单位时间内能处理的请求就多了。在H100上的测试显示,与未量化的键向量相比,TurboQuant最高可实现约8倍的性能提升。这意味着同样的硬件,能跑更多的并发,处理更长的上下文。
​4. 不只是大模型,还能服务搜索引擎。TurboQuant的应用范围不止于大语言模型,还包括支撑大规模搜索引擎的向量检索能力。当向量数据库的内存占用降下来,搜索服务的响应速度和经济性都会提升。谷歌计划在4月的国际学习表征会议上展示这项技术。
​5. 对行业意味着什么?
内存瓶颈一直是AI算力的隐形天花板。HBM贵到离谱,产能还被英伟达包圆。TurboQuant这类压缩算法,等于是在硬件之外开辟了软优化的路径。不用换卡,就能让现有硬件跑得更快、更省、更大。这对中小开发者尤其友好。
​投资逻辑:
​算法压缩技术突破,会降低AI应用的门槛。更多开发者能用得起大模型,推理成本下降,应用场景拓宽。长期看,算力需求不会减少,但单位算力能做的事会更多。关注AI应用层、模型部署优化、边缘计算等方向。
​当大家都在卷算力、抢HBM,谷歌把目光投向了内存压缩。3bit精度,6倍节省,8倍性能。这不是硬件堆料,是算法榨油。大模型的时代,拼的不仅是堆多少卡,更是怎么把每一块钱算力用到极致。你觉得下一个AI突破会来自硬件还是软件?

发布于 广东