Unsigned Exponent 8 bits, Mantissa 0 bits，即无符号指数位占8位，尾数位为0位。U：Unsigned，无符号，与有符号（Signed）相对应，也就是数字不带正负号，这种数据格式无法表示负数，但是可以用同样的数据长度表示更多正数。E：Exponent，指数，科学计数法的“次方”。M：Mantissa，尾数，科学计数法

Unsigned Exponent 8 bits, Mantissa 0 bits，即无符号指数位占8位，尾数位为0位。U：Unsigned，无符号，与有符号（Signed）相对应，也就是数字不带正负号，这种数据格式无法表示负数，但是可以用同样的数据长度表示更多正数。E：Exponent，指数，科学计数法的“次方”。M：Mantissa，尾数，科学计数法的“头”或“有效数字”。UE8M0：无符号（只能取0或正数），用8位数字表达指数，用0位数字表达尾数（此时尾数默认为1），也就是说这种数字格式只能表示2的n次方，从2的0次方到2的255次方。（2） UE8M0、E4M3、E5M2对比上面介绍过FP8的，总共是8个bit，常用的格式是E4M3、E5M2等，它们分别包含4个符号位3个尾数、5个符号位2个尾数；而 UE8M0是8个bit全都分配给了指数位，没有尾数，也没有符号位（正负）。类型符号位指数位尾数位动态范围精度适用场景E4M31432^-6-240高精度激活值E5M21522^-14-2^15高动态范围权重存储UE8M00801~10^76极大范围量化搜索（3）UE8M0设计的优点UE8M0首先是无符号设计，AI计算中大量使用ReLU激活，负值会稀少，其次是零尾数设计：通过量化查找表替代尾数，实现更高效的近似。UE8M0本质上是对关键参数保留更高有效位，非敏感参数激进压缩，如缩放因子动态补偿量化误差，维持模型收敛稳定性。这里的“缩放因子”也是包含8个bit，其中包含符号位、指数位和尾数位。其优点如下：① 内存占用减少：相比传统FP16/BF16格式，模型参数体积压缩50%以上，显著降低显存带宽压力；② 计算吞吐提升：支持更高密度的并行运算，不需要浮点乘法、规格化或舍入逻辑，缩短了时钟关键路径，尤其适配张量核心的矩阵乘法加速，减少量化误差。③ 动态范围扩展：通过块级缩放技术，UE8M0的动态范围可达2^(−127)到2^128 能有效避免数据溢出或精度损失，确保复杂数据的准确处理。④ 国产芯片兼容性：国产芯片存在硬件基础弱、算力不足存储性能不足，传输慢，但UE8M0 FP8专为国产芯片设计，能让它们数据存储减半、传输效率翻倍！就像给旧电脑装了个新系统——突然变得特别流畅！可后期与华为昇腾、寒武纪、摩尔线程等国产芯片深度适配，助力国产AI硬件生态发展，提升国产芯片在AI领域的竞争力。
二、预测下一代国产AI芯片经过前面的讲解，大家肯定很好奇，DeepSeek V3.1 针对的是哪家的国产芯片呢？下面是Adien小编的预测，欢迎补充：1、华为昇腾（Huawei）下一代芯片（可能命名为910d）将支持FP8精度，预计第四季度送测，26年第一季度量产。当前的910B库存积压，主要用于推理；而昇腾910C不支持FP8 。华为的生态软件适配被认为更优，适用于大规模AI训练和推理，尤其在国产算力中心和政企市场有广泛应用场景。2、寒武纪（Cambricon）不用多说，看这几天的寒王一路高歌的股票便知。截至8月22日，寒武纪市值突破5200亿元，股价报1243.20元，排大A第二，股价仅次于茅台，而且距茅台也仅差一个涨停的距离。
寒王旗下的MLU370-S4、思元590及最新690系列芯片均支持FP8计算。据传，寒武纪690已送测，有字节跳动等头部企业正在测试，可能获得大规模算力采购订单。3、云天励飞（Intellifusion）云天励飞是深圳AI第一股，2023年4月，科创板上市，截至发稿时，云天励飞市值为283.3亿元。
产品布局全面覆盖端、边、云芯片，核心优势是推理芯片，端侧芯片和边缘技术。其NPU Nova500实现了对FP8的硬件原生支持，并已在边缘推理等场景成熟应用。公司芯片实现了从设计到封装的全国产化，是中芯南方14nm唯一量产的推理芯片。4、海光信息（Hygon）海光于2022年8月12日在科创板上市，截至今年8月22日，市值4325亿，主要从事高端处理器（CPU）和协处理器（DCU）。其深算三号DCU支持FP8计算，存在进一步优化的空间。此前，DCU加速卡已经适配Deep Seek，并参与天数智芯MaaS平台建设，成功构建AI全场景闭环，在多行业实现规模化应用，深算系列DCU已兼容CUDA生态，适配主流AI框架。
5、摩尔线程（Moore Threads）作为最有英伟达基因的摩尔线程，创始人张建中曾任英伟达全球副总裁，主导构建英伟达中国生态。目前摩尔线程已经上交所递交科创板IPO申请。公司已推出苏堤、春晓、曲院、平湖四代 GPU 架构，产品覆盖 AI 智算、图形渲染等六大领域，旗舰产品 MTT S5000 加速卡被测试用户称为 “国内对标 H100 的产品”，FP8 精度算力，适配 MoE 大模型训练。6、沐曦曦云（MetaX）
沐曦的创始人陈维良和核心高管来自AMD，成立于2020年9月，目前IPO进程已进入问询阶段。沐曦曦云的核心产品是曦云C系列训推一体GPU：曦云C500、C600（7月发布）、云C700（规划中）等。
曦云C500的特点是：支持多精度混合算力（FP32、FP16、INT8等），配备64GB HBM2e显存，通过自研MetaxLink高速互连技术实现单机8卡全互联，适用于AI大模型训练与推理、通用计算等场景。今年7月发布的曦云C600，也支持FP8精度计算。
7、燧原科技（Enflame)
燧原是2018年5月成立的AI芯片独角兽，由原AMD和紫光核心芯片团队成员创办。是中国首批实现“端到端AI算力解决方案”的独立芯片公司之一。目前已启动IPO进程。其核心产品“邃思”系列在数据中心级训练场景实现国产替代，主要竞争对手为英伟达A100/H100。25 年推出了最新的 L600 芯片，历时两年半开发，最大的亮点是采用了训推一体的架构：既能承担大模型的训练任务，又能直接用于推理部署。而且L600 原生支持 FP8 低精度。这与 DeepSeek 模型的精度策略正好对齐。8、壁仞科技（Biren）成立于2019年9月，创始人张文为哈佛法学博，联席CEO李新荣曾任AMD全球副总裁，专注于高性能通用GPU（GPGPU）芯片，目前700亿估值预计冲刺港股。BR100系列芯片采用7nm制程，首创Chiplet封装与PCIe 5.0接口，FP32算力达256TFlops，峰值算力超国际旗舰产品3倍。壁砺系列一体机支持阿里通义等大模型全栈训练与推理，显存占用降低50%。但壁仞科技BR104芯片未明确支持UE8M0 FP8格式，仅支持混合精度计算(如TF32），期待后期的消息。9、龙芯中科（Loongson）中科院计算所引领的自主可控CPU研发企业，2022年6月，于科创板上市，为国产CPU第一股。推出了自主指令系统——龙架构，并不断优化和开发CPU、GPU及接口等关键软硬件IP核。核心产品为龙芯1号、龙芯2号、龙芯3号系列。龙芯3C6000系列，单硅片 16 核 32 线程，可通过自研的龙链接口集成 FP8 加速模块。
10、芯原股份 (VeriSilicon)2020年8月18日在科创板上市，中国半导体IP第一股”和“AI ASIC龙头企业”。提供GPU、NPU、视频处理器VPU和半导体IP授权服务，拥有图形处理器IP（GPU IP）。VIP 9000 NPU，合计出货量已经超过了1亿颗，用于高性能 Transformer 推理的 NPU 支持 FP8 技术。
11、中昊芯英
由前谷歌TPU芯片核心研发者杨龚轶凡于2018年创立，国内唯一掌握TPU架构并实现量产的企业，拥有完全自主可控的IP核、指令集与计算平台。其“刹那”TPU AI芯片，全自研GPTPU架构高性能AI芯，性能超越NVIDIA A100 1.5倍，支持FP8精度。
12、景嘉微（jingjia micro）
总部位于长沙，2016年3月17日在深交所创业板上市。于2015年底成功研制出了国产第一款GPU（JM5400），这是国内第一款自主研发的GPU，产品涵盖JM5、JM7、JM9、JM11系列，应用于军用显控、信创、AI计算等领。
JM11系列GPU支持FP32（6TFLOPS）与FP16（12TFLOPS），并探索混合精度运算，未来可能通过架构升级兼容FP8。其JM9271芯片集成16GBHBM显存，带宽512GB/s，浮点性能8TFLOPS，接近GTX1080水平，为高性能计算场景提供硬件支撑。13、天数智芯（Iluvatar CoreX）成立于2015年12月，创始团队来自AMD和甲骨文。计划2025年赴港IPO。核心业务覆盖：云端服务器级通用GPU芯片研发，产品覆盖训练（天垓系列，如天垓100）与推理（智铠系列，智铠100）。
国内首家推出GPGPU（通用GPU）产品的公司。其Big Island云端GPGPU算力达295TOPS（INT8）。与科华数据（提供算力基础设施）有关联。
。。。
三、总结与展望
当DeepSeek的 V4 和R2模型迟迟未发布，我们一直在深度求索国内大模型的发展之路，是真的没有英伟达的高端芯片，国产算力产业就一直要被压制吗？
当DS新模型采用的UE8M0 FP8参数，通过精准的指数位与尾数位分配，在精度损失可控的前提下将数据传输与存储成本降低50%，相当于间接提升算力利用率近一倍，将有效缓解“算力饥渴”，为国产大模型规模化落地提供底层技术支撑。
而 UE8M0 FP8将作为下一代算力标准，告诉我们，大模型参数正在朝着低精度的方向发展。传统的FP32和FP16我们没赶上，那又怎么样？我们已经独辟蹊径。

当计算范式从"高精度通用计算"向"高效专用计算"的演进，我们国产算力芯片可以从设计架构的破壁突围、制造工艺的精进跃升，再到软件生态的协同共生，构建自主可控的AI生态壁垒。
而DS V3.1模型的官宣，暗示了：“下一代国产芯片”即将发布。国内的头部企业，已蓄势待发，不过，他们只是这场突破 AI 算力枷锁的第一波先行者。

发布于上海