王玮晨 26-03-27 11:56
微博认证:电竞博主

存储的天塌了。
谷歌研究院即将在国际学习表征会议上发表学术论文。推出的新型AI内存压缩技术“TurboQuant”,宣称可将大语言模型(LLM)推理中的缓存内存占用压缩至六分之一,并在英伟达H100 GPU上实现最高8倍的性能加速。
内存厂商直接被这篇没发布的论文干懵了。 ​

发布于 湖南