蚁工厂
26-05-24 09:39 微博认证:科技博主

面壁昨晚发布了BitCPM-CANN,首个原生构建于华为 Ascend NPU 的端到端 1.58-bit(三值)大语言模型训练系统。该系统将量化感知训练(QAT)集成到 Megatron-LM 框架中,并结合 MindSpeed 加速,覆盖从自定义三值算子到 Ascend 910B 上分布式并行训练的完整训练栈。

核心特性:
🔬 1.58-bit 三值量化:将模型权重量化为三值 {-1, 0, 1},相比 BF16 实现约 90% 的位宽降低。
🖥️ 原生 Ascend NPU 训练:首个公开报道的、在国产 NPU 平台上完成的 8B 规模 1.58-bit 训练工作,为 Ascend 生态建立了可复用的低比特训练基础设施。
⚡ 极低训练开销:在 Ascend 910B 上,相比全精度训练仅有 5% 的吞吐下降。
📦 推理内存约降低 6 倍:支持更长上下文、更多服务副本,并可在消费级设备上进行端侧部署。

同时还发布了基于该系统训练的模型家族——BitCPM-CANN-0.5B/1B/3B/8B,保留了全精度性能的 95.7%–97.2%,同时在推理阶段实现约 6 倍的内存占用降低。

#AI创造营#

发布于 山东