斌叔OKmath 26-04-01 23:29
微博认证:橙旭园CEO 教育博主

这些绝对疯狂的 LLM 专家现在正在尝试使用 Turboquant 不仅压缩 KV 缓存,而且现在还压缩整个模型本身。

该测试表明内存占用减少了 50% 以上,使得 Qwen 3.5-27B 可以在单个 RTX 5060 上以 3.15 位精度运行,且没有明显的性能下降。

这正好说明我们距离现有模型的完全优化还很远。我们可能还需要不到一年的时间,才能在小型设备上运行大型模型,并将性能影响降到最低。

在此期间,他们只会变得越来越好。

生活在这样一个时代真好。

发布于 北京