梁赛 25-09-05 14:45
微博认证:AI博主

Unsloth 引入更高效的强化学习 (RL),并实现多项算法改进:
1、上下文长度增加了 1.2 到 1.7 倍,且没有影响速度
2、显存 (VRAM) 占用率降低了 50%以上!
3、通过改进的内核和异步数据移动,RL 训练运行速度提高了 10%
4、模型加载torch.compile速度提高 2 倍

与所有其他配备 FA2 的配置相比, Unsloth提升了强化学习 (RL) 的训练速度和上下文窗口,并将显存 (VRAM) 占用率降低了 50% 至 90%,而Unsloth 的Standby功能则进一步提升了这一性能。

现在,Qwen3-32B LoRA 16 位在 1xH100 80GB GPU 上可以达到 6,144 个上下文长度,而之前为 3,600 个(长 1.7 倍)。Llama-3.1-8B QLoRA 4 位可以达到 47,500 个上下文长度,而之前为 42,000 个(长 1.13 倍)。

通过各种内核优化,将强化学习的运行速度提高了 10%,并在从训练模式切换到推理模式时移除了 CPU 和 GPU 之间的 LoRA 通信通道。

最后, 使用自定义torch.compile标志,将 vLLM 的部署速度提高了 10%,并将编译时间缩短了 2 倍。

发布于 广东