寒武纪思元590在FP8下推理效率提升300%，专家模块利用率从30%升至85%；华为昇腾采用HiFloat8渐进式FP8，平衡范围与精度，支持训练/推理全流程；摩尔线程等在软件栈上优化。整体而言，国产芯片在推理场景已兼容主流大模型。#国产芯片的转折点是否到来#？DeepSeek选择国产芯片优化，主要源于战略、技术

寒武纪思元590在FP8下推理效率提升300%，专家模块利用率从30%升至85%；华为昇腾采用HiFloat8渐进式FP8，平衡范围与精度，支持训练/推理全流程；摩尔线程等在软件栈上优化。整体而言，国产芯片在推理场景已兼容主流大模型。#国产芯片的转折点是否到来#？

DeepSeek选择国产芯片优化，主要源于战略、技术和生态多重考量。通过UE8M0 FP8优化，DeepSeek能与寒武纪思元590/690、华为昇腾等深度绑定，提升兼容性，实现模型-硬件协同。 FP8格式减少内存/带宽需求75%，推理吞吐翻倍，能效更高，适合国产芯片的7nm工艺限制；DeepSeek V3.1在混合推理架构下，支持思考/非思考模式，Agent能力增强，但需硬件支持低精度调度。

DeepSeek已与15+家企业（如华为、中国移动）合作，模型先行定义标准，倒逼硬件适配，形成正反馈循环；这不同于NVIDIA的硬件主导模式，更适合“软件驱动硬件”的路径。

优化后，DeepSeek V3.1在MMLU等基准上接近GPT-4o，API价格仅1元/百万token输入，性价比碾压海外，助力国产AI产业链落地。

国产芯片确实有望借DeepSeek V3.1的UE8M0 FP8优化迎来突破，

UE8M0 FP8是什么？

UE8M0 FP8是一种创新的8位浮点数格式（Floating Point 8-bit），专为AI计算优化设计。在传统的浮点数表示中，浮点数由符号位（Sign）、指数（Exponent）和尾数（Mantissa）三部分组成，用于平衡精度和动态范围。但UE8M0采取极简主义设计：它将全部8位用于指数（Exponent），省略符号位和尾数（Mantissa=0），因此被称为“无尾数”格式。这种结构使得其动态范围极大（约从2^{-127}到2^{128}），乘除运算简化为简单的整数加减，极大降低硬件复杂度，但也导致精度较低，只有256个离散值水平，适合矩阵乘法（MatMul）等累积运算场景，而不直接用于加法。实际应用中，UE8M0常作为“Scale-only”模式，与其他FP8变体（如E4M3/E5M2）结合使用：权重保持在高精度格式，中间缩放用UE8M0，避免精度损失，同时兼容微缩放（Microscaling）框架。 #ai生活指南##ai创造营#

发布于北京