JasonDai大数据AI
24-12-20 19:28 微博认证:AI博主

🚀🚀🚀OpenDiLoCo:DiLoCo(分布式低通信大模型训练)的开源实现🚀🚀🚀

🌲联邦平均(federated averaging)的一个变体
🌳内部优化器使用AdamW,外部优化器使用SGD with Nesterov Momentum
🌴将DiLoCo实验扩展到10亿参数级别大模型

⭐代码repo:http://t.cn/A6Qd5ln0
🌞论文:http://t.cn/A6Qd5lnO

发布于 上海