寒武纪思元590在FP8下推理效率提升300%,专家模块利用率从30%升至85%;华为昇腾采用HiFloat8渐进式FP8,平衡范围与精度,支持训练/推理全流程;摩尔线程等在软件栈上优化。整体而言,国产芯片在推理场景已兼容主流大模型。#国产芯片的转折点是否到来#?
DeepSeek选择国产芯片优化,主要源于战略、技术和生态多重考量。 通过UE8M0 FP8优化,DeepSeek能与寒武纪思元590/690、华为昇腾等深度绑定,提升兼容性,实现模型-硬件协同。 FP8格式减少内存/带宽需求75%,推理吞吐翻倍,能效更高,适合国产芯片的7nm工艺限制;DeepSeek V3.1在混合推理架构下,支持思考/非思考模式,Agent能力增强,但需硬件支持低精度调度。
DeepSeek已与15+家企业(如华为、中国移动)合作,模型先行定义标准,倒逼硬件适配,形成正反馈循环;这不同于NVIDIA的硬件主导模式,更适合“软件驱动硬件”的路径。
优化后,DeepSeek V3.1在MMLU等基准上接近GPT-4o,API价格仅1元/百万token输入,性价比碾压海外,助力国产AI产业链落地。
国产芯片确实有望借DeepSeek V3.1的UE8M0 FP8优化迎来突破,
UE8M0 FP8是什么?
UE8M0 FP8是一种创新的8位浮点数格式(Floating Point 8-bit),专为AI计算优化设计。在传统的浮点数表示中,浮点数由符号位(Sign)、指数(Exponent)和尾数(Mantissa)三部分组成,用于平衡精度和动态范围。但UE8M0采取极简主义设计:它将全部8位用于指数(Exponent),省略符号位和尾数(Mantissa=0),因此被称为“无尾数”格式。这种结构使得其动态范围极大(约从2^{-127}到2^{128}),乘除运算简化为简单的整数加减,极大降低硬件复杂度,但也导致精度较低,只有256个离散值水平,适合矩阵乘法(MatMul)等累积运算场景,而不直接用于加法。实际应用中,UE8M0常作为“Scale-only”模式,与其他FP8变体(如E4M3/E5M2)结合使用:权重保持在高精度格式,中间缩放用UE8M0,避免精度损失,同时兼容微缩放(Microscaling)框架。 #ai生活指南##ai创造营#
