数码头条 26-04-24 20:32
微博认证:新浪新闻数码官方微博

【#摩尔线程携手智源FlagOS#,为MTT S5000 GPU完成DeepSeek-V4模型Day-0适配】4月24日消息,摩尔线程与智源FlagOS合作,为MTT S5000 GPU实现DeepSeek-V4-Flash模型的Day-0适配。据介绍,DeepSeek-V4-Flash模型采用混合专家(MoE)架构,总参数量达284B,激活参数13B,支持百万token(词元)上下文长度。预训练数据超32Ttoken,在最大推理力度模式(Flash-Max)下推理能力逼近Pro版本。

值得注意的是,DeepSeek-V4模型首次采用了“FP4+FP8”混合精度策略,而国内当前主流AI芯片仍普遍以BF16为主。摩尔线程凭借原生FP8支持能力,可更高效承载DeepSeek-V4的前沿精度设计。

同时,MTT S5000 GPU内置硬件级FP8 Tensor Core加速单元,相比传统BF16/FP16能将数据位宽直接减半,显存带宽压力降低50%,理论计算吞吐量实现翻倍。

为充分发挥MTT S5000的FP8优势,FlagOS团队为DeepSeek-V4模型进行FP8量化。通过系统级分析,双方技术团队将本次适配的攻坚重点锁定在FP8算子与Sparse Attention算子,在“编译优化”与“自动调优”两大方向取得重大突破。(IT之家)

发布于 北京