谷歌推出AI内存压缩技术

存储的天塌了。
谷歌研究院即将在国际学习表征会议上发表学术论文。推出的新型AI内存压缩技术“TurboQuant”，宣称可将大语言模型（LLM）推理中的缓存内存占用压缩至六分之一，并在英伟达H100 GPU上实现最高8倍的性能加速。
内存厂商直接被这篇没发布的论文干懵了。

发布于湖南