爱可可-爱生活
26-03-15 05:59 微博认证:AI博主 2025微博新锐新知博主

[CL]《Scalable Training of Mixture-of-Experts Models with Megatron Core》Z Yan, H Bai, X Yao, D Liu… [NVIDIA] (2026)

在大规模MoE训练领域,MoE稀疏性造成的「参数-计算量错位」是一个悬而未决的工程难题。DeepSeek-V3的685B总参数中每次推理仅激活37B,这18倍的差距使传统稠密框架面临三堵墙:激活内存超出GPU容量、跨节点all-to-all通信吞噬60%训练时间、细粒度专家产生的小矩阵让GPU算力大量空转。

本文的核心洞见是:把注意力层和MoE层对并行策略的冲突需求看作两张可以独立配置的拓扑图。由此,「并行折叠」这一关键操作使得注意力层可用TP=4高效切分大矩阵,而专家层同时用EP=64保持完整的矩阵尺寸——两者共享同一批GPU却互不干扰。在此基础上,细粒度激活重计算、HybridEP/DeepEP调度器、FWD-BWD流水线交错重叠、CUDA Graph静态捕获以及设备侧Grouped GEMM,协同将199.5GB/卡的内存需求压缩到可行范围,并把all-to-all通信开销从60%降至10%以下。

这项工作真正留下的遗产是:首次以开源形式提供了一套可同时应对「内存墙、通信墙、计算效率墙」的MoE训练全栈,在GB200上将DeepSeek-V3训练推至1048 TFLOPS/GPU。它为后来者打开的新门是动态上下文并行与ECHO弹性专家克隆等机制,让RL后训练中极端变长序列的MoE训练首次具备工程可行性。但尚未跨过的门槛是:三堵墙之间的交互优化至今仍靠启发式经验迭代,缺乏能自动搜索最优并行配置的系统级理论框架。

arxiv.org/abs/2603.07685
#机器学习# #人工智能# #论文# #AI创造营#

发布于 北京