🚀🚀🚀OpenDiLoCo:DiLoCo(分布式低通信大模型训练)的开源实现🚀🚀🚀
🌲联邦平均(federated averaging)的一个变体
🌳内部优化器使用AdamW,外部优化器使用SGD with Nesterov Momentum
🌴将DiLoCo实验扩展到10亿参数级别大模型
⭐代码repo:http://t.cn/A6Qd5ln0
🌞论文:http://t.cn/A6Qd5lnO
发布于 上海
