7款国产AI芯片已经完成了DeepSeek的适配。
智源研究院公众号发了篇文章,表示FlagOS完成DeepSeekV4-Flash八款芯片Day0 适配。
包括海光、沐曦、华为昇腾、摩尔线程(FP8)、昆仑芯、平头哥真武、天数、英伟达(FP8)等芯片。
之前国内模型跟芯片的问题主要在于模型和芯片之间的算子不完全兼容。也就导致很长一段时间内,都是模型先发布,然后芯片再去做适配。
这样就会导致浪费大量的人力物力在适配上,并且各家的活也成了重复劳动。
智源研究院就在推 Flag OS,主要是把常见的算子和编译器、通信库、训练和推理框架这些做一个统一,这样国产芯片和国产大模型的适配就加速了。
当然,并不是说适配完了就能达到最高效率。要实现高效率的推理和训练,还需要各家去做优化。但是从零到一的问题解决了,或者说从零到十的问题已经解决了,各家再走剩下的路就好走了
具体来说,从他们公众号的文章上,主要提了以下三个突破:
突破一:FlagGems 提供支持8种以上芯片的全算子替代——真正意义上的跨芯方案
突破二:为o-group采用独立并行策略——解除张量并行最多单机8卡限制
突破三:从“FP4+FP8混合精度” 到 BF16的精度转换——打通主流芯片的计算路径。
详细内容可以,建议你们去智源研究院的公众号上看看,我觉得很有意义
发布于 北京
