Most大牛n 26-05-02 14:15
微博认证:科技博主

56亿昇腾订单,撕碎英伟达CUDA垄断

2026年4月,华为在深圳正式启动昇腾950PR大规模量产。 这款单卡FP4算力1.56PFlops的推理芯片,性能是英伟达针对中国特供的H20的2.8倍。

刚过去的4月底,字节跳动确认抛出56亿美元采购单,锁定约35万颗,直接创下国内AI芯片采购的历史纪录。 现在国内AI基建已经彻底从“凑合用的备份”,转成主动选国产替代的阶段。

DeepSeek V4的发布是关键转折点。 这款1万亿参数的MoE大模型,原本定在2026年初发,特意推迟了3个月重构,专门适配昇腾950PR和寒武纪的硬件。 阿里云、腾讯云在V4发布当天就完成了全栈部署。 全行业都看得懂:硬件性能突破和软件生态解耦正在同步发生,英伟达靠CUDA锁了十几年的开发者生态,真的要松了。

FP4性能反超H20 昇腾产能直接拉满

昇腾950PR直接把国产AI芯片的性能天花板抬了一大截。 FP4精度下1.56PFlops的推理吞吐量,比英伟达H20高1.8倍。 它也是目前唯一支持FP4压缩格式的国产芯片,跑大规模MoE模型的时候,内存带宽消耗更低,能扛更多并发请求。

产能兑现的突破比参数更实在。 华为2026年全年计划出货75万颗,单价约1.6万美元,现在现货价格已经因为抢货涨了20%,完全是卖方市场。 75万颗的年产能,意味着昇腾950PR已经从实验室样品变成了工业级基础设施,足够扛住全国数百万并发AI查询的需求。 字节一家的35万颗订单就占了全年规划产能的近一半,头部互联网厂的算力采购逻辑早就变了。

CUDA直接兼容 迁移成本砍到零

昇腾950PR最有战略价值的不是硬件性能,是它的CUDA兼容软件栈。 现有基于英伟达CUDA开发的AI workload,不用重写代码就能直接迁过去,彻底解决了之前国产芯片落地推广最大的“移植成本”问题。 之前开发者抵触非英伟达硬件,主要就是改内核代码太费人力时间,现在950PR靠二进制兼容层做到了几乎零摩擦迁移。 坊间数据说,2025年国内已经有超过3000个常用大模型完成了昇腾适配,兼容层跑起来的效率能到原生CUDA环境的95%以上。

DeepSeek V4推迟发布,刚好印证了这条路线走得通。 开发团队花了三个月针对昇腾和寒武纪硬件重构模型架构,最终优化版本的推理效率,比基于英伟达硬件的原始方案还高一点。 这种“模型主动适配硬件”的操作,直接打破了之前“硬件必须迁就主流模型”的惯性。 阿里云百炼、腾讯云TokenHub在V4发布当天就上线了基于昇腾950PR的推理服务,整个行业的游戏规则已经变了。

56亿大单锁半产能 国产替代闭环跑通

字节这56亿美元的订单,是中国半导体史上最大的单笔AI芯片采购单。 不仅锁了华为2026年近半的950PR产能,信号效应比订单本身还大。 阿里、腾讯等云服务商紧跟着就下了大规模预购,全年75万颗的产能刚公布就被抢光了。 这种“需求端先给订单-产能端满负荷跑-供应链快速成熟”的正向循环,直接解了之前国产AI芯片“没订单就没迭代,没迭代就没订单”的死局。

价格的变化最能说明市场地位的反转。 1.6万美元的单价加上20%的现货溢价,说明昇腾950PR已经是市场抢着要的硬通货。 之前国产芯片要靠打折才能抢市场,现在国内企业愿意为自主可控的算力付溢价。 这种商业可持续性直接给后续研发喂足了现金流,华为已经公开路线图,2027年、2028年将分别推出昇腾960、970系列,代际迭代的正循环已经跑通了。

DeepSeek V4原生适配 软硬件协同效率拉满

DeepSeek V4选昇腾950PR当原生优化平台,标志着国内AI产业进入了“软硬件协同设计”的新阶段。 这款1万亿参数的MoE模型,每次推理只激活370亿参数,对内存带宽和稀疏计算效率要求极高。 950PR的FP4支持能力和高带宽内存设计,刚好踩中了MoE模型的稀疏激活特性,推理成本比传统稠密模型低了近40%。

这种协同效应已经在改云厂商的采购逻辑。 阿里云、腾讯云当天就完成部署,不是简单的软件适配,是直接基于950PR的硬件特性重写了推理服务架构。 DeepSeek已经公开说,2026年下半年昇腾950超级节点规模出货后,V4-Pro的API定价会大幅下调,国产硬件的成本优势已经开始直接传导到终端用户。 对比之下,英伟达H200因为中美监管拉扯,至今没能进中国市场,刚好给国产芯片留足了空间。

H200卡壳进不来 国产算力窗口期已到

现在的市场格局,刚好踩中了监管的时间差。 英伟达H200理论性能确实比昇腾950PR强,也拿到了出口许可,但中美双方在销售细则上扯了快半年,至今没完成对华出货。 这12到18个月的空窗期,刚好给华为留足了渗透国内云基础设施的时间。 950PR靠性能超H20、产能爬坡快、生态无缝迁的三重优势,已经抢下了国内AI算力新增市场的大半份额。

2025年北京就停了英伟达H20的进口,刚好接上昇腾950PR的量产节奏。 现在H20彻底买不到,H200又没影子,国内AI产业已经进入了“后英伟达”的过渡阶段。 DeepSeek、字节、阿里、腾讯这些产业链核心玩家的选择,正在把过渡期变成不可逆的结构性转移。 等2026年下半年75万颗950PR全部部署到位,就算H200之后能进来,市场格局也早就重新洗牌了。

2025年国内昇腾开发者数量已经突破120万,比2024年翻了一倍。 阿里云2025年Q4的AI算力订单里,昇腾占比已经超过40%。 等今年75万颗昇腾950PR全部落地,国内AI产业第一次有了完全自主可控、性能对标国际主流、生态无缝衔接的算力基座。 这不是简单的供应链替代,是真真正正把算力主权握在了自己手里。

发布于 湖南