文欧价值
26-06-17 00:49 微博认证:投资内容创作者

科大讯飞总结出国产算力集群训练大模型的三大主要技术挑战:
硬件性能差距较大。目前国产算力芯片与英伟达芯片性能相比,在算力、显存、带宽上有显著差距,因此可支持训练模型的尺寸、上下文的长度偏小。
芯片架构不友好。国产芯片Cube和Vector分离架构导致访存效率仅为英伟达芯片的1/5,FullMesh通信架构的点对点通信效率仅为1/7。国产芯片算子泛化性不足,开箱性能与英伟达芯片相比差距较大。
万卡联训经常中断。想要在万卡级别国产算力上常态化稳定训练超千亿参数的大模型并非易事,实际上国产软硬件故障率偏高导致训练时常中断,要保障快速恢复和节点一致性等问题,以及算子精度等各种bug会在长时间累积之后才能发现。

发布于 广东