这些绝对疯狂的 LLM 专家现在正在尝试使用 Turboquant 不仅压缩 KV 缓存,而且现在还压缩整个模型本身。
该测试表明内存占用减少了 50% 以上,使得 Qwen 3.5-27B 可以在单个 RTX 5060 上以 3.15 位精度运行,且没有明显的性能下降。
这正好说明我们距离现有模型的完全优化还很远。我们可能还需要不到一年的时间,才能在小型设备上运行大型模型,并将性能影响降到最低。
在此期间,他们只会变得越来越好。
生活在这样一个时代真好。
发布于 北京
