旌旗超智能 26-04-28 09:32
微博认证:知名汽车博主

这篇文章写得非常好,直接点明了罗福莉给小米的真正价值

1.一针见血,看透核心问题的能力

比如算力分配应该是 3:1:1

在解决 MOE 专家模型的路由问题上,投入最多的计算卡,投入训练阶段 3 倍的卡,防止 1T 以上的超大参数量导致崩溃

在过去大家深耕的预训练和后训练阶段,反而投入较少的卡,因为这些东西都已经到头了,甚至包括强化学习

2.小米通过挖这个关键人,拿到了 Deepseek 先进的组织方式

扁平化,跨职能,超高的人才密度……

发布于 广东