蔚来发布世界模型新版本

@本诺__ 讨论的第二篇。

蔚来刚好发布了世界模型全新版本，正好回答这个问题。

这是蔚来的资料里写的，我试着理解一下，蔚来没有轨迹的方案，核心是三层训练框架：

第一层：世界模型做预测，不是做控制

蔚来的 NWM 本质上是一个环境模拟器。

它在云端构建高保真虚拟世界，在 100ms 内推演出几百种可能的场景演变，然后找最优解。

之前版本这个最优解是一条轨迹，我要走这条路；然后下游模块把轨迹翻译成方向盘转角、油门开度。

现在最新版本拿掉了这个中间翻译层。

第二层：监督微调学行为，不学物理

这是蔚来方案的关键。

它不是让模型去学轨迹长什么样，而是直接用大量人类驾驶数据做监督微调，让模型学会在这种情况下人类怎么踩油门/转方向盘。

换句话说，它绕过物理建模，直接拟合控制策略。

你不需要告诉模型这车重两吨、轮胎抓地力0.8，模型从数据里自己学到不同车型的控制手感差异。

脑补 + 手搓

第三层：闭环强化学习在模拟器里练控制

蔚来在云端用强化学习训练控制策略。

训练逻辑是，给安全通过 +10分、压线 -2 分、碰撞 -100 分，模型自己摸索出既安全又像人的控制风格。

这个过程在虚拟环境里完成，可以覆盖海量corner case，不依赖实车数据。

所以蔚来的路径本质上是：感知端到端 + 规划端到端 + 控制端到端，三段式变成一段式

不是没有规划，而是规划的结果直接是控制指令，跳过了先输出轨迹再翻译成控制的环节。

好处是延迟更低、控车更细腻。

代价是，对训练数据的质量、分布、车型覆盖，要求极高。一旦数据里没见过的场景，模型的输出就不可控。

蔚来敢这么做，大概是一方面车队规模够大；另一方面是 9031 芯片算力够强，本地端可以跑更复杂的模型推理。

#微博新知博主#

发布于上海