LLM专家压缩模型测试

这些绝对疯狂的 LLM 专家现在正在尝试使用 Turboquant 不仅压缩 KV 缓存，而且现在还压缩整个模型本身。

该测试表明内存占用减少了 50% 以上，使得 Qwen 3.5-27B 可以在单个 RTX 5060 上以 3.15 位精度运行，且没有明显的性能下降。

这正好说明我们距离现有模型的完全优化还很远。我们可能还需要不到一年的时间，才能在小型设备上运行大型模型，并将性能影响降到最低。

在此期间，他们只会变得越来越好。

生活在这样一个时代真好。

发布于北京