七九三一 26-04-08 16:47
微博认证:Timer时一工作室主编

据说GLM 5.1是昇腾训练的
这个消息如果属实,意义还是挺大的。
证明了国产芯片也能训练SOTA模型。

昇腾乃至国产AI芯片,主要问题是从来没有在SOTA模型训练上,上证明过自己。

这事说来话长。
盘古之殇里头提到过,此前用昇腾训练出过Pangu-718B,但只能算是比较强,不能算SOTA。当时性能确实不错,在各大榜单上也能排上号,但跟当时最顶尖的GPT-4、Claude比起来,还是有明显差距。
SOTA这个门槛,不是自己想封就能封的。你得在公认的评测集上,实打实地拿到第一,或者至少是并列第一。

之前GLM5,华为计算公众号提到了基于昇腾实现GLM-5的训练复现。
我当时看到这个消息,还是挺激动的。
复现确实证明了昇腾的兼容性没问题,算力底子是够的。
但复现和完整训练,还有差距。复现是别人把路走通了,你照着走一遍。完整训练是从零开始,自己探索架构、调优参数、解决训练过程中的各种坑。

GLM 5.1大概率架构上没有大变化,换句话说,训练复现的经验都能用。
如果是真的,那就是国产AI芯片的历史性突破。

为什么这么说?
一来是,完整训练意味着昇腾的软件生态、工具链、稳定性,都经受住了大规模训练的考验。几千张卡跑几个月不出大问题,这个难度比想象中高得多。
二来是,智谱的GLM 5.1本身是个有竞争力的模型。不是那种为了国产而国产的定制版,是正儿八经要跟全球顶尖模型掰手腕的产品。

用昇腾完整训练出SOTA模型,这个意义怎么强调都不为过。
它证明了国产芯片不是只能做推理、做边缘计算,也能打最硬的那场仗。

当然,现在还是据说阶段,具体细节还没公布。
等智谱或者华为正式发布消息,再看看训练成本、训练效率、最终性能这些硬指标。

但至少,这是一个积极的信号。
国产AI芯片的叙事,可能要变了。
#微博新知#

发布于 北京