深圳发布了一个消息,就是“全国首个使用国产先进芯片构建的万卡级全栈自主可控智算集群”正式点亮了。
国产先进芯片,能做到万卡集群,这是头一回。这说明了整个系统,包括芯片、互联、软件的成熟度上升到了一个新的阶段了。
当年Meta用1.6w张H100 GPU训练Llama 3,基本上1.8小时就发生一次故障。H的实测数据是自己的万卡集群故障率远低于H100。
关键问题是H100故障率比A100还高。越往后,拼的都是集群稳定性。如果芯片很领先,但是集群故障率下不来,你再牛的芯片也跑不起来了。
H这个万卡集群先做到稳定运行了。后面拼系统的时候,优势就体现出来了。
发布于 上海
