向小田 26-03-30 14:59
微博认证:2024微博年度新知博主 科技博主

深圳发布了一个消息,就是“全国首个使用国产先进芯片构建的万卡级全栈自主可控智算集群”正式点亮了。

国产先进芯片,能做到万卡集群,这是头一回。这说明了整个系统,包括芯片、互联、软件的成熟度上升到了一个新的阶段了。

当年Meta用1.6w张H100 GPU训练Llama 3,基本上1.8小时就发生一次故障。H的实测数据是自己的万卡集群故障率远低于H100。

关键问题是H100故障率比A100还高。越往后,拼的都是集群稳定性。如果芯片很领先,但是集群故障率下不来,你再牛的芯片也跑不起来了。

H这个万卡集群先做到稳定运行了。后面拼系统的时候,优势就体现出来了。

发布于 上海