karminski-牙医 26-04-10 07:13
微博认证:AI博主

阿里又整了个活, 直接把小模型魔改成了 MoE 模型

阿里(阿里国际数字商业团队)在 Marco-MoE 系列模型里又放出一个新型号: Marco-Mini-Instruct. 总参数量 17.3B, 激活参数量只有 0.86B (大约5%)! 这个估计CPU都能跑得飞起了. (简单估算下如果使用8bit量化, 然后使用4条DDR4 2400, 大概也能跑30 token/s).

这个模型最大的亮点不是上面说的速度, 也不是它的性能, 而是它是怎么被"弄"出来的:

这个模型不是从0训练的, 而是由 Qwen3-0.6B-Base 做 upcycling, 这个 upcycling 一般是指将一个 Dense 小模型的部分模块拆成或者复制成多个专家, 然后再接上路由.然后配合细粒度子矩阵切分和 Drop-Upcycling (再加一些正则/随机性, 在训练过程中按一定概率丢掉部分专家或部分路由路径), 从而实现了整个小的 Dense 模型变成 MoE 模型的整个流程.

config 里的 max_position_embeddings 到 32K, 官方后训练里的 SFT 阶段用的是 8,192 token 上下文, 所以默认支持的上下文不是特别大.

这个模型的后训练也有看点, 先 SFT, 然后做了级联蒸馏(而且是 On-Policy Distillation), 先蒸 Qwen3-30B-A3B-Instruct, 再换更强的 Qwen3-Next-80B-A3B-Instruct, 蒸馏数据包含指令遵循、推理、对齐、数学等.

最终搞出来的这个 Marco-Mini-Instruct 在0.86B 的激活下大部分 benchmark 性能超过了 Qwen3-4B 等一众 Dense 模型.

在我来看这个模型最大的意义是给想要炼自己的 MoE 模型提供了新的路径, 只需要找个小的 Dense 模型然后照抄论文中的这些方法就行了, 按照文中的成本计算, SFT 阶段用了 64 GPU x 24h, 然后蒸馏阶段用了 64 GPU x 110h.

#HOW I AI##MarcoMini##阿里##AIDC#

发布于 日本