德卤爱开车
26-05-27 16:58 微博认证:微博新知博主 汽车博主 微博原创视频博主

@本诺__ 讨论的第二篇。

蔚来刚好发布了世界模型全新版本,正好回答这个问题。

这是蔚来的资料里写的,我试着理解一下,蔚来没有轨迹的方案,核心是三层训练框架:

第一层:世界模型做预测,不是做控制

蔚来的 NWM 本质上是一个环境模拟器。

它在云端构建高保真虚拟世界,在 100ms 内推演出几百种可能的场景演变,然后找最优解。

之前版本这个最优解是一条轨迹,我要走这条路;然后下游模块把轨迹翻译成方向盘转角、油门开度。

现在最新版本拿掉了这个中间翻译层。

第二层:监督微调学行为,不学物理

这是蔚来方案的关键。

它不是让模型去学轨迹长什么样,而是直接用大量人类驾驶数据做监督微调,让模型学会在这种情况下人类怎么踩油门/转方向盘。

换句话说,它绕过物理建模,直接拟合控制策略。

你不需要告诉模型这车重两吨、轮胎抓地力0.8,模型从数据里自己学到不同车型的控制手感差异。

脑补 + 手搓

第三层:闭环强化学习在模拟器里练控制

蔚来在云端用强化学习训练控制策略。

训练逻辑是,给安全通过 +10分、压线 -2 分、碰撞 -100 分,模型自己摸索出既安全又像人的控制风格。

这个过程在虚拟环境里完成,可以覆盖海量corner case,不依赖实车数据。

所以蔚来的路径本质上是:感知端到端 + 规划端到端 + 控制端到端,三段式变成一段式

不是没有规划,而是规划的结果直接是控制指令,跳过了先输出轨迹再翻译成控制的环节。

好处是延迟更低、控车更细腻。

代价是,对训练数据的质量、分布、车型覆盖,要求极高。一旦数据里没见过的场景,模型的输出就不可控。

蔚来敢这么做,大概是一方面车队规模够大;另一方面是 9031 芯片算力够强,本地端可以跑更复杂的模型推理。

#微博新知博主#

发布于 上海