面壁发布新训练系统

面壁昨晚发布了BitCPM-CANN，首个原生构建于华为 Ascend NPU 的端到端 1.58-bit（三值）大语言模型训练系统。该系统将量化感知训练（QAT）集成到 Megatron-LM 框架中，并结合 MindSpeed 加速，覆盖从自定义三值算子到 Ascend 910B 上分布式并行训练的完整训练栈。

核心特性：
🔬 1.58-bit 三值量化：将模型权重量化为三值 {-1, 0, 1}，相比 BF16 实现约 90% 的位宽降低。
🖥️ 原生 Ascend NPU 训练：首个公开报道的、在国产 NPU 平台上完成的 8B 规模 1.58-bit 训练工作，为 Ascend 生态建立了可复用的低比特训练基础设施。
⚡ 极低训练开销：在 Ascend 910B 上，相比全精度训练仅有 5% 的吞吐下降。
📦 推理内存约降低 6 倍：支持更长上下文、更多服务副本，并可在消费级设备上进行端侧部署。

同时还发布了基于该系统训练的模型家族——BitCPM-CANN-0.5B/1B/3B/8B，保留了全精度性能的 95.7%–97.2%，同时在推理阶段实现约 6 倍的内存占用降低。

#AI创造营#

发布于山东