Unsloth推新算法扩展RL

Unsloth 新活: 强化学习上下文长度直接拉长 7 倍

强化学习训练最头疼的问题之一就是显存不够用, 推理链一长就爆显存. Unsloth 团队搞了 3 个新算法, 直接把 RL 训练的上下文长度拉长了 7 倍 (最高 12 倍), 而且不掉精度不掉速度.

现在 24GB 显卡上 gpt-oss 20b QLoRA 能跑 20K 上下文, 52K 也能撑住; H100 80GB 上 Qwen3-8B GRPO 配合 vLLM 直接干到 110K 上下文; B200 192GB 上 gpt-oss QLoRA 能干到 380K.

原理给大家整理下:
扁平化序列分块 - 不再一次性算整个 logits 张量, 而是按 batch 和序列维度分块处理, 把显存占用从 3.3GB 压到 0.2GB;
隐藏状态分块 - 长上下文时 hidden states 也是显存大户, 同样切块处理;
log softmax 激活值卸载 - 发现分块后激活值没被正常卸载导致显存偷偷涨, 加了显式卸载逻辑堵上这个漏洞.

关键是这些优化可以和 Unsloth 其他功能叠加: vLLM 权重共享、500K 上下文训练、FP8 训练、异步梯度检查点等等, 全能一起用. 支持 Llama、Gemma、Qwen 等主流模型, 开箱即用.

对于想在消费级显卡上跑 RL 的同学来说这是个大利好, 以前 24GB 只能跑几千 token 的推理链, 现在能到几万, 训练复杂推理任务的门槛一下子降下来了.

博客: unsloth.ai/docs/new/grpo-long-context
Colab: docs.unsloth.ai/get-started/unsloth-notebooks

#ai生活指南##ai创造营#

发布于日本