小王Quinn
26-06-08 09:46 微博认证:汽车博主 微博原创视频博主

华为昇腾910C这次真的干了一件很硬的事。依托昇腾910C国产AI算力集群,完成了1.6万亿参数DeepSeek-V4-Pro的全参数后训练。
第一反应是:国产AI芯片终于不只是“能跑模型”了,而是开始真正进入“能训大模型”的深水区了。

📮但这里一定要说清楚,别把概念吹歪了。
这次完成的不是从零开始的预训练,而是“全参数后训练”。
说人话就是:不是从0到1把一个大模型喂出来,而是在已有模型基础上,对所有参数进行后训练和对齐,让它更会理解指令、更符合任务需求、更适合实际部署。
听起来好像比预训练简单?
确实没预训练那么夸张,但也绝对不简单。尤其是1.6万亿参数这个级别,难点不是“芯片能不能亮机”,而是整个集群能不能稳住。
因为大模型训练最怕的不是单卡跑不快,而是几千张卡一起干活的时候:
一张卡掉链子怎么办?
通信延迟怎么压?
算子效率怎么优化?
内存、带宽、调度怎么配?
训练跑到一半崩了怎么恢复?

📮这些东西,才是真正卡国产算力脖子的地方。
所以这次我觉得最值得关注的,不是“昇腾910C是不是已经全面超过英伟达”,而是国产AI算力第一次在万亿级模型训练场景里,跑出了一个可验证的工业级流程。
公开信息里有两个数字很关键:
一个是模型算力利用率 MFU 超过30%。
一个是关键训练算子效率提升14%。
很多人可能会觉得:才30%?这也值得吹?
但大模型训练不是游戏跑分,不是你看一个峰值性能就完事了。真正难的是长时间稳定运行,是软硬件协同,是CANN框架、算子库、通信网络、调度系统一起磨出来的效率。

说白了,芯片只是门票,生态才是赛场。
这也是为什么英伟达最强的地方从来不只是GPU,而是CUDA生态。开发者习惯、工具链、算子库、调优经验、工程团队,全都围着它转。
国产AI芯片过去最难的就是这个:硬件可以追,但软件生态和工程经验没法一夜之间补齐。
所以这次昇腾910C完成1.6万亿参数模型全参数后训练,真正的意义是——国产算力开始有自己的“练兵场”了。
以前很多国产芯片只能做推理,或者做小规模微调。模型真正训练的时候,大家还是绕不开英伟达。
现在至少证明了一件事:国产算力不是只能当备用方案,而是已经开始具备承接顶级大模型训练任务的可能性。

📮当然,这还不等于国产AI芯片已经全面替代H100,也不等于从芯片性能、软件生态到训练效率都追平英伟达。尤其是完整预训练、超大规模集群稳定性、开发者迁移成本这些问题,后面还有很多硬仗要打。
但技术进步很多时候不是一步登天,而是先从“不可能”变成“能跑通”,再从“能跑通”变成“跑得好”,最后才是“大家愿意用”。
这次昇腾910C至少跨过了第一道非常关键的门槛。
我觉得这件事最有意思的地方在于:
AI竞争打到最后,拼的不只是模型参数,也不是谁发布会PPT更漂亮,而是谁能掌握底层算力、谁能把芯片、框架、模型、应用全链条打通。
没有自己的算力底座,大模型做得再热闹,底层依然是别人的牌桌。

昇腾910C这次不是终点,但确实像一个信号:
国产AI不再只是“用别人的铲子挖金矿”,而是开始自己造铲子、搭矿场、训练工人了。
这比单纯喊口号重要得多。
你们觉得国产AI芯片离真正大规模替代英伟达还有多久?
#华为升腾910c完成训练##国产AI芯片##DeepSeek#

发布于 陕西