GLM 5.1或由昇腾训练

据说GLM 5.1是昇腾训练的
这个消息如果属实，意义还是挺大的。
证明了国产芯片也能训练SOTA模型。

昇腾乃至国产AI芯片，主要问题是从来没有在SOTA模型训练上，上证明过自己。

这事说来话长。
盘古之殇里头提到过，此前用昇腾训练出过Pangu-718B，但只能算是比较强，不能算SOTA。当时性能确实不错，在各大榜单上也能排上号，但跟当时最顶尖的GPT-4、Claude比起来，还是有明显差距。
SOTA这个门槛，不是自己想封就能封的。你得在公认的评测集上，实打实地拿到第一，或者至少是并列第一。

之前GLM5，华为计算公众号提到了基于昇腾实现GLM-5的训练复现。
我当时看到这个消息，还是挺激动的。
复现确实证明了昇腾的兼容性没问题，算力底子是够的。
但复现和完整训练，还有差距。复现是别人把路走通了，你照着走一遍。完整训练是从零开始，自己探索架构、调优参数、解决训练过程中的各种坑。

GLM 5.1大概率架构上没有大变化，换句话说，训练复现的经验都能用。
如果是真的，那就是国产AI芯片的历史性突破。

为什么这么说？
一来是，完整训练意味着昇腾的软件生态、工具链、稳定性，都经受住了大规模训练的考验。几千张卡跑几个月不出大问题，这个难度比想象中高得多。
二来是，智谱的GLM 5.1本身是个有竞争力的模型。不是那种为了国产而国产的定制版，是正儿八经要跟全球顶尖模型掰手腕的产品。

用昇腾完整训练出SOTA模型，这个意义怎么强调都不为过。
它证明了国产芯片不是只能做推理、做边缘计算，也能打最硬的那场仗。

当然，现在还是据说阶段，具体细节还没公布。
等智谱或者华为正式发布消息，再看看训练成本、训练效率、最终性能这些硬指标。

但至少，这是一个积极的信号。
国产AI芯片的叙事，可能要变了。
#微博新知#

发布于北京