于云彤 26-03-27 16:16
微博认证:汽车博主

4 月份即将亮相的蔚来ES9所搭载的「神玑 NX9031」,我们找到了一个域控制器开盒的板子大家可以看看。

也简单给大家介绍一下现在大家看芯片的时候,核心关键要看哪几个维度。

首先算力肯定逃不掉,目前以稀疏算力来去评估,小鹏自研图灵单颗 750TOPS,英伟达 Thor-U 是 700TOPS,高通 8650 是 200TOPS,NX9031 没有公布具体的数据,但是根据我们看到的架构,保守估计在 1000TOPS 左右。

这里要跟大家去讲个重要的事儿,就是单芯片,算力越高越好,因为靠堆芯片这事儿,其实是个笨办法,在 PC 时代玩过 DIY 的朋友一定熟悉显卡“交火(CrossFire/SLI)”:用两张显卡桥接来提升性能。但这种技术最终被时代淘汰了,原因很简单:多芯片的 1+1,一定远远小于 2。

把这个逻辑放到智驾芯片上是一样的,在实际跑端到端大模型时,芯片与芯片之间跨域的数据传输(PCIe 总线带宽限制),会产生巨大的通信损耗和延迟。端到端模型是一个不可分割的“黑盒”,如果把计算任务硬拆给两颗芯片,数据在两颗 SoC 之间来回搬运的时间,甚至比计算本身还要长。算力高度集中化,消除片外通信损耗,是 E2E 时代的唯一解。 有的品牌,双芯片逻辑,可能是一颗跑端到端,一颗来去跑 VLA。

看智驾芯片,外行看 TOPS(算力),内行看 Bandwidth(内存带宽)。
Transformer 架构的本质是海量的矩阵乘法,如果把算力比作发动机的马力,那总内存带宽就是输油管。油管如果不够粗,你算力再高,计算单元也只能干等着数据传输,这就是业内常说的“内存墙(Memory Wall)”。
我们把这几家核心玩家的底牌掀开,对比一下它们的总内存带宽基准:
* 华为 MDC610:308 GB/s
* 小鹏 图灵(Turing):273 GB/s (750 TOPS算力,64GB内存)
* 蔚来 神玑 NX9031: 546GB/s (LPDDR5x 8533Mbps,512-bit 位宽,看域控布局,推测 单芯片内存容量可能是 128G 的,双芯片 256G,当然也有可能除以二)
* 英伟达 Thor-U(现役):273GB/s(LPDDR5x 8533Mbps,一般用 96G 内存的多,也有 128G 的)
* 高通 SA8650:~100 GB/s 级别

在车规级 SoC 上搞 512-bit 是什么概念?这意味着极其恐怖的底层布线难度、夸张的封装面积以及成倍飙升的制造成本。蔚来之所以敢这么“疯”,是因为他们深知,当 1000 TOPS 的算力全速运转端到端视觉大模型时,每秒钟都有以 TB 计的权重数据和 KV Cache 需要搬运。

也就是说,现在 9031的输油管,是同级别里面最粗的一根,当芯片在真实道路上同时硬刚极其消耗内存的端到端+世界模型(World Model)时,差距就会被瞬间放大。

既然单芯这么强,为什么在目前流出的神玑 NX9031 旗舰主板上(用于 ET9 和 ES9),我们依然看到了两颗芯片?

大家要记住一点:这里的双芯片不是为了算力叠加,而是为了满足严苛的 L3 级功能安全标准(ASIL-D)。

在 L3 及以上的自动驾驶中,系统不允许有任何单点失效。旗舰车型上的双 NX9031 互为“微秒级镜像热备份”。一旦主芯片出现极小概率的计算异常或硬件宕机,副芯片能瞬间无缝接管,车主甚至感觉不到任何顿挫,这是冲击真正 L3 的入场券。

而在主力走量车型(如 ES8、ES6、ET5 等)上,不出意外将采用单颗 NX9031 独挑大梁。约1000 TOPS 的单芯算力和 512GB/s 的带宽,应对日常高阶 NOA 绰绰有余。这不仅大幅降低了整套域控制器的 BOM 成本,还有效优化了整车的电子电气拓扑结构。

最后,我们聊聊 5nm 制程带来的隐藏好处。大家平时都在关注车辆跑起来时的智驾表现,却忽略了车辆停下时的体验。现阶段很多搭载高算力芯片的车型,在开启“哨兵模式”时,由于需要唤醒庞大的智驾 SoC 进行环境感知,耗电量非常惊人。

NX9031 采用的 5nm 车规工艺在这里展现出了降维打击的优势。更先进的制程意味着极佳的能效比和漏电流控制。配合其内部专用的低功耗唤醒电路和高效的 NPU 加速单元,当车辆进入哨兵模式时,9031 能够以极低的功耗维持 AI 视觉运算。 一晚上的耗电量将大幅降低,彻底治愈车主的“哨兵电量焦虑”。#蔚来 ES9##蔚来汽车##蔚来 ET9#

发布于 北京