爱可可-爱生活 26-02-11 09:29
微博认证:AI博主 2025微博新锐新知博主

【MoE模型训练提速12倍,显存省三成:消费级显卡也能玩转专家混合架构】

MoE(混合专家模型)一直是大模型训练中的硬骨头。参数量动辄几百亿,显存占用惊人,普通玩家只能望洋兴叹。但Unsloth团队最近放出的更新,可能要改变这个局面了。

他们通过自研的Triton内核和数学优化,实现了MoE训练12倍提速、显存降低35%以上、上下文长度拓展6倍,而且精度零损失。gpt-oss-20b模型微调只需12.8GB显存,一张RTX 3090就能跑。

这次优化覆盖了市面上主流的MoE架构:Qwen3全系列(30B、235B、视觉版、代码版)、DeepSeek R1/V3、GLM系列。无论是数据中心的H100、B200,还是消费级的RTX 3090甚至更老的显卡,都能享受加速。全量微调、LoRA、QLoRA全部支持。

值得一提的是,这次更新是与Hugging Face联合完成的。Transformers v5本身已经比v4快了6倍,Unsloth在此基础上又叠加了2倍提速。相比v4版本,综合提升达到12到30倍。

unsloth.ai/docs/new/faster-moe

社区里有人问:MoE微调不是容易把模型训废吗?路由层训崩的惨剧见得太多了。Unsloth团队给出的答案很干脆:冻结路由层,不要动它。这个策略听起来简单粗暴,但确实有效。路由层负责决定哪些专家被激活,它的稳定性对整个模型至关重要,强行训练往往适得其反。

还有人关心4bit量化训练的问题。目前除了gpt-oss做了专门适配外,其他MoE模型的BNB 4bit训练还不够成熟,官方建议暂时用BF16。FP8和4bit版本在路上了。

AMD显卡用户也有福音。只要PyTorch的torch._grouped_mm函数在ROCm上能跑,这套优化就能用。多卡训练同样支持,虽然还没正式官宣,但教程已经放出来了。

有个细节值得玩味:模型越大、上下文越长,Unsloth的显存节省效果就越明显,而且是指数级增长。这意味着在真正吃紧的场景下,优化收益反而更大。

MoE架构代表着大模型的效率方向,用更少的计算激活更专精的参数。但训练门槛一直居高不下。当这道门槛降到一张消费级显卡就能跨越时,普通开发者和研究者的想象空间就被打开了。

reddit.com/r/LocalLLaMA/comments/1r14h9u/train_moe_models_12x_faster_with_30_less_memory

发布于 北京