【DeepSeek V4在昇腾超节点训练被三方复现了?】 #超级ai工厂##deepseek##华为昇腾##模型训练# 深圳河套学院联合哈工大深圳、华为GTS和深智城算力平台,刚干成了一件大事。他们基于昇腾910C国产算力集群,用一个月完成了DeepSeek-V4-Pro的全参数续训练和SFT微调。1500多步长稳训练跑下来,零异常。MFU,模型算力利用率,干到了34.9%,单步耗时稳定在27秒。@新浪人工智能 http://t.cn/AX61pR3j
发布于 北京
【DeepSeek V4在昇腾超节点训练被三方复现了?】 #超级ai工厂##deepseek##华为昇腾##模型训练# 深圳河套学院联合哈工大深圳、华为GTS和深智城算力平台,刚干成了一件大事。他们基于昇腾910C国产算力集群,用一个月完成了DeepSeek-V4-Pro的全参数续训练和SFT微调。1500多步长稳训练跑下来,零异常。MFU,模型算力利用率,干到了34.9%,单步耗时稳定在27秒。@新浪人工智能 http://t.cn/AX61pR3j