内存,内存,永远都是内存。
6月27日,DeepSeek 低调在 GitHub 更新论文,梁文锋署名、联合北京大学,开源推理加速框架 DSpark。本质:推测解码是内存带宽换算力。自回归解码时 GPU 空置率高达 99%,卡点是内存墙,不是算力。
发布于 北京
内存,内存,永远都是内存。
6月27日,DeepSeek 低调在 GitHub 更新论文,梁文锋署名、联合北京大学,开源推理加速框架 DSpark。本质:推测解码是内存带宽换算力。自回归解码时 GPU 空置率高达 99%,卡点是内存墙,不是算力。