板哥一万倍 25-08-24 23:28
微博认证:财经博主 头条文章作者

Unsigned Exponent 8 bits, Mantissa 0 bits,即无符号指数位占8位,尾数位为0位。U:Unsigned,无符号,与有符号(Signed)相对应,也就是数字不带正负号,这种数据格式无法表示负数,但是可以用同样的数据长度表示更多正数。E:Exponent,指数,科学计数法的“次方”。M:Mantissa,尾数,科学计数法的“头”或“有效数字”。UE8M0:无符号(只能取0或正数),用8位数字表达指数,用0位数字表达尾数(此时尾数默认为1),也就是说这种数字格式只能表示2的n次方,从2的0次方到2的255次方。(2) UE8M0、E4M3、E5M2对比上面介绍过FP8的,总共是8个bit,常用的格式是E4M3、E5M2等,它们分别包含4个符号位3个尾数、5个符号位2个尾数;而 UE8M0是8个bit全都分配给了指数位,没有尾数,也没有符号位(正负)。类型符号位指数位尾数位动态范围精度适用场景E4M31432^-6-240高精度激活值E5M21522^-14-2^15高动态范围权重存储UE8M00801~10^76极大范围量化搜索(3)UE8M0设计的优点UE8M0首先是无符号设计,AI计算中大量使用ReLU激活,负值会稀少,其次是零尾数设计:通过量化查找表替代尾数,实现更高效的近似。UE8M0本质上是对关键参数保留更高有效位,非敏感参数激进压缩,如缩放因子动态补偿量化误差,维持模型收敛稳定性。这里的“缩放因子”也是包含8个bit,其中包含符号位、指数位和尾数位。其优点如下:① 内存占用减少:相比传统FP16/BF16格式,模型参数体积压缩50%以上,显著降低显存带宽压力;② 计算吞吐提升:支持更高密度的并行运算,不需要浮点乘法、规格化或舍入逻辑,缩短了时钟关键路径,尤其适配张量核心的矩阵乘法加速,减少量化误差。③ 动态范围扩展:通过块级缩放技术,UE8M0的动态范围可达2^(−127)到2^128    能有效避免数据溢出或精度损失,确保复杂数据的准确处理 。④ 国产芯片兼容性:国产芯片存在硬件基础弱、算力不足存储性能不足,传输慢,但UE8M0 FP8专为国产芯片设计,能让它们数据存储减半、传输效率翻倍!就像给旧电脑装了个新系统——突然变得特别流畅!可后期与华为昇腾、寒武纪、摩尔线程等国产芯片深度适配,助力国产AI硬件生态发展,提升国产芯片在AI领域的竞争力。
二、预测下一代国产AI芯片经过前面的讲解,大家肯定很好奇,DeepSeek V3.1 针对的是哪家的国产芯片呢?下面是Adien小编的预测,欢迎补充:1、华为昇腾(Huawei)下一代芯片(可能命名为910d)将支持FP8精度,预计第四季度送测,26年第一季度量产 。当前的910B库存积压,主要用于推理 ;而昇腾910C不支持FP8 。华为的生态软件适配被认为更优 ,适用于大规模AI训练和推理,尤其在国产算力中心和政企市场有广泛应用场景。2、寒武纪(Cambricon)不用多说,看这几天的寒王一路高歌的股票便知。截至8月22日,寒武纪市值突破5200亿元,股价报1243.20元,排大A第二,股价仅次于茅台,而且距茅台也仅差一个涨停的距离。
寒王旗下的MLU370-S4、思元590及最新690系列芯片均支持FP8计算。据传,寒武纪690已送测,有字节跳动等头部企业正在测试,可能获得大规模算力采购订单。3、云天励飞(Intellifusion)云天励飞是深圳AI第一股,2023年4月,科创板上市,截至发稿时,云天励飞市值为283.3亿元。
产品布局全面覆盖端、边、云芯片,核心优势是推理芯片,端侧芯片和边缘技术。其NPU Nova500实现了对FP8的硬件原生支持,并已在边缘推理等场景成熟应用 。公司芯片实现了从设计到封装的全国产化,是中芯南方14nm唯一量产的推理芯片 。4、海光信息(Hygon)海光于2022年8月12日在科创板上市,截至今年8月22日,市值4325亿,主要从事高端处理器(CPU)和协处理器(DCU)。其深算三号DCU支持FP8计算,存在进一步优化的空间。此前,DCU加速卡已经适配Deep Seek,并参与天数智芯MaaS平台建设,成功构建AI全场景闭环,在多行业实现规模化应用,深算系列DCU已兼容CUDA生态,适配主流AI框架。
5、摩尔线程(Moore Threads)作为最有英伟达基因的摩尔线程,创始人张建中曾任英伟达全球副总裁,主导构建英伟达中国生态。目前摩尔线程已经上交所递交科创板IPO申请。公司已推出苏堤、春晓、曲院、平湖四代 GPU 架构,产品覆盖 AI 智算、图形渲染等六大领域,旗舰产品 MTT S5000 加速卡被测试用户称为 “国内对标 H100 的产品”,FP8 精度算力,适配 MoE 大模型训练。6、沐曦曦云 (MetaX)
沐曦的创始人陈维良和核心高管来自AMD,成立于2020年9月,目前IPO进程已进入问询阶段。沐曦曦云的核心产品是曦云C系列训推一体GPU:曦云C500、C600(7月发布)、云C700(规划中)等。
曦云C500的特点是:支持多精度混合算力(FP32、FP16、INT8等),配备64GB HBM2e显存,通过自研MetaxLink高速互连技术实现单机8卡全互联,适用于AI大模型训练与推理、通用计算等场景。今年7月发布的曦云C600,也支持FP8精度计算。
7、燧原科技 (Enflame)
燧原是2018年5月成立的AI芯片独角兽,由原AMD和紫光核心芯片团队成员创办。是中国首批实现“端到端AI算力解决方案”的独立芯片公司之一。目前已启动IPO进程。其核心产品“邃思”系列在数据中心级训练场景实现国产替代,主要竞争对手为英伟达A100/H100。25 年推出了最新的 L600 芯片,历时两年半开发,最大的亮点是采用了训推一体的架构:既能承担大模型的训练任务,又能直接用于推理部署。而且L600 原生支持 FP8 低精度。这与 DeepSeek 模型的精度策略正好对齐。8、壁仞科技 (Biren)成立于2019年9月,创始人张文为哈佛法学博,联席CEO李新荣曾任AMD全球副总裁,专注于高性能通用GPU(GPGPU)芯片,目前700亿估值预计冲刺港股。BR100系列芯片采用7nm制程,首创Chiplet封装与PCIe 5.0接口,FP32算力达256TFlops,峰值算力超国际旗舰产品3倍。壁砺系列一体机支持阿里通义等大模型全栈训练与推理,显存占用降低50%。但壁仞科技BR104芯片未明确支持UE8M0 FP8格式,仅支持混合精度计算(如TF32),期待后期的消息。9、龙芯中科 (Loongson)中科院计算所引领的自主可控CPU研发企业,2022年6月,于科创板上市,为国产CPU第一股。推出了自主指令系统——龙架构,并不断优化和开发CPU、GPU及接口等关键软硬件IP核。核心产品为龙芯1号、龙芯2号、龙芯3号系列。龙芯3C6000系列,单硅片 16 核 32 线程,可通过自研的龙链接口集成 FP8 加速模块。
10、芯原股份 (VeriSilicon)2020年8月18日在科创板上市,中国半导体IP第一股”和“AI ASIC龙头企业”。提供GPU、NPU、视频处理器VPU和半导体IP授权服务,拥有图形处理器IP(GPU IP)。VIP 9000 NPU,合计出货量已经超过了1亿颗,用于高性能 Transformer 推理的 NPU 支持 FP8 技术。
11、中昊芯英
由前谷歌TPU芯片核心研发者杨龚轶凡于2018年创立,国内唯一掌握TPU架构并实现量产的企业,拥有完全自主可控的IP核、指令集与计算平台。其“刹那”TPU AI芯片,全自研GPTPU架构高性能AI芯,性能超越NVIDIA A100 1.5倍,支持FP8精度。
12、景嘉微 (jingjia micro)
总部位于长沙,2016年3月17日在深交所创业板上市。于2015年底成功研制出了国产第一款GPU(JM5400),这是国内第一款自主研发的GPU,产品涵盖JM5、JM7、JM9、JM11系列,应用于军用显控、信创、AI计算等领。
JM11系列GPU支持FP32(6TFLOPS)与FP16(12TFLOPS),并探索混合精度运算,未来可能通过架构升级兼容FP8。其JM9271芯片集成16GBHBM显存,带宽512GB/s,浮点性能8TFLOPS,接近GTX1080水平,为高性能计算场景提供硬件支撑。13、天数智芯(Iluvatar CoreX)成立于2015年12月,创始团队来自AMD和甲骨文。计划2025年赴港IPO。核心业务覆盖:云端服务器级通用GPU芯片研发,产品覆盖训练(天垓系列,如天垓100)与推理(智铠系列,智铠100)。
国内首家推出GPGPU(通用GPU)产品的公司。其Big Island云端GPGPU算力达295TOPS(INT8)。与科华数据(提供算力基础设施)有关联。
。。。
三、总结与展望
当DeepSeek的 V4 和R2模型迟迟未发布,我们一直在深度求索国内大模型的发展之路,是真的没有英伟达的高端芯片,国产算力产业就一直要被压制吗?
当DS新模型采用的UE8M0 FP8参数,通过精准的指数位与尾数位分配,在精度损失可控的前提下将数据传输与存储成本降低50%,相当于间接提升算力利用率近一倍,将有效缓解“算力饥渴”,为国产大模型规模化落地提供底层技术支撑。
而 UE8M0 FP8将作为下一代算力标准,告诉我们,大模型参数正在朝着低精度的方向发展。传统的FP32和FP16我们没赶上,那又怎么样?我们已经独辟蹊径。

当计算范式从"高精度通用计算"向"高效专用计算"的演进,我们国产算力芯片可以从设计架构的破壁突围、制造工艺的精进跃升,再到软件生态的协同共生,构建自主可控的AI生态壁垒。
而DS V3.1模型的官宣,暗示了:“下一代国产芯片”即将发布。国内的头部企业,已蓄势待发,不过,他们只是这场突破 AI 算力枷锁的第一波先行者。

发布于 上海