存储的天塌了。
谷歌研究院即将在国际学习表征会议上发表学术论文。推出的新型AI内存压缩技术“TurboQuant”,宣称可将大语言模型(LLM)推理中的缓存内存占用压缩至六分之一,并在英伟达H100 GPU上实现最高8倍的性能加速。
内存厂商直接被这篇没发布的论文干懵了。
发布于 湖南
存储的天塌了。
谷歌研究院即将在国际学习表征会议上发表学术论文。推出的新型AI内存压缩技术“TurboQuant”,宣称可将大语言模型(LLM)推理中的缓存内存占用压缩至六分之一,并在英伟达H100 GPU上实现最高8倍的性能加速。
内存厂商直接被这篇没发布的论文干懵了。