近日,深圳官方正式官宣重磅技术成果,由深圳河套学院AI训练平台项目团队牵头,联合哈尔滨工业大学(深圳)、深圳市大数据研究院、华为团队及深智城AI算力平台共同攻关,依托华为昇腾910C国产AI算力集群,成功完成1.6万亿参数DeepSeek-V4-Pro大模型全参数后训练,创下国产自主算力支撑超大参数通用大模型训练的全新纪录。
这不是一次试探性的尝试,而是一次里程碑式的技术突破。它用无可辩驳的工程结果证明,国产AI芯片已经跨过了那条最难的门槛。在美国制裁持续收紧的背景下,中国半导体行业正努力从支持基础AI推理,迈向更复杂的模型训练阶段。
深圳官方在报道中明确指出,"此次实践为全球第三方机构在国产算力平台上完成该级别模型训练的相关探索,积累了重要经验,也印证了国产AI芯片可支撑世界级超大参数模型训练工作"。
为什么“全参数后训练”含金量这么高?
很多人只注意到“1.6万亿参数”,却忽略了“全参数后训练”这六个字的含金量。
AI大模型的核心分为推理和训练。推理是模型已经学好了,按部就班回答问题,这是国产芯片之前擅长的“单行道”;而训练则是让模型从零开始学,不仅需要海量算力,还要不断自我反思调整,相当于在单行道上建起复杂的“立交桥”。
训练又分预训练(打基础)和后训练(学规矩、学技能)。全参数后训练,意味着要同时调整1.6万亿个参数,而不是小打小闹的局部微调。更棘手的是,DeepSeek-V4-Pro采用了混合专家(MoE)架构——推理时只需唤醒少数专家,训练时却要所有专家同时学习、海量通信,数据交换量是普通模型的几十倍。
三大工程突破,完成艰难破局
第一是"显存拼图"。1.6万亿个参数的数据量极其庞大,不可能塞进任何一张单独的计算卡。团队设计了一套极其精密的分布式承载方案,把整个模型像拼图一样,拆成一小块一小块,精确地分配到每一张芯片上。哪块卡负责哪部分参数,什么时候需要和其他卡交换数据,都算得丝毫不差。
第二是"负载均衡"。混合专家模型最头疼的问题就是忙闲不均。有的专家任务排成长队,有的专家却闲得没事干。之前很多国产集群跑MoE模型,算力利用率普遍偏低。这次团队专门针对MoE架构优化了调度算法,动态给每个专家分配任务,彻底解决了跨卡通信拥堵的问题。
第三是"全程不掉线"。做过大模型训练的人都知道,最怕的就是跑了几天几夜,突然一个硬件故障或软件错误,整个训练直接崩溃,前面所有的时间和算力都打了水漂。这次训练一共跑了1500多步,全程没有出现一次中断或者报错。这背后是一整套完整的全链路监控和容错体系,是无数个日夜调试出来的结果。
最终,模型算力利用率突破30%,关键训练算子效率提升14%。在万亿级训练领域,30%的利用率已是相当优秀的工业级水准(即便用顶配海外芯片,很多团队也仅在40%左右)。
