MoE模型训练优化方案

[CL]《Scalable Training of Mixture-of-Experts Models with Megatron Core》Z Yan, H Bai, X Yao, D Liu… [NVIDIA] (2026)

在大规模MoE训练领域，MoE稀疏性造成的「参数-计算量错位」是一个悬而未决的工程难题。DeepSeek-V3的685B总参数中每次推理仅激活37B，这18倍的差距使传统稠密框架面临三堵墙：激活内存超出GPU容量、跨节点all-to-all通信吞噬60%训练时间、细粒度专家产生的小矩阵让GPU算力大量空转。

本文的核心洞见是：把注意力层和MoE层对并行策略的冲突需求看作两张可以独立配置的拓扑图。由此，「并行折叠」这一关键操作使得注意力层可用TP=4高效切分大矩阵，而专家层同时用EP=64保持完整的矩阵尺寸——两者共享同一批GPU却互不干扰。在此基础上，细粒度激活重计算、HybridEP/DeepEP调度器、FWD-BWD流水线交错重叠、CUDA Graph静态捕获以及设备侧Grouped GEMM，协同将199.5GB/卡的内存需求压缩到可行范围，并把all-to-all通信开销从60%降至10%以下。

这项工作真正留下的遗产是：首次以开源形式提供了一套可同时应对「内存墙、通信墙、计算效率墙」的MoE训练全栈，在GB200上将DeepSeek-V3训练推至1048 TFLOPS/GPU。它为后来者打开的新门是动态上下文并行与ECHO弹性专家克隆等机制，让RL后训练中极端变长序列的MoE训练首次具备工程可行性。但尚未跨过的门槛是：三堵墙之间的交互优化至今仍靠启发式经验迭代，缺乏能自动搜索最优并行配置的系统级理论框架。

arxiv.org/abs/2603.07685
#机器学习# #人工智能# #论文# #AI创造营#

发布于北京