华为论文详解World Engine

华为这篇论文值得看：

World Engine: Towards the Era of Post-Training for Autonomous Driving

简单来说是解释 WEWA 架构里的 World Engine 到底在做什么。

目前自动驾驶训练的问题就是数据不够，大量的数据都是没有意义的普通道路，靠实车去跑无异于大海捞针。

比如在 nuPlan 基准上，把预训练数据量翻倍，对长尾危险场景的成功率提升极其有限，而 World Engine 的后训练方法，效果相当于扩充了约 14 倍预训练数据。

具体怎么做呢？

第一步，发现长尾数据。

先用大规模真实驾驶日志预训练一个 E2E 基础模型，然后把这个模型喂进每条驾驶日志跑一遍轻量回放，凡是车撞墙、偏出路面的场景，就打上标签。

全程不依赖人工设计规则，用模型自己的能力边界来判断数据值不值得留下。

第二步，用 3DGS 重建场景。

把上一步打标签的危险场景，用 3DGS 重建成仿真环境。每段日志提取前 3 秒 + 后 8 秒的传感器数据（10Hz 采样），静态背景与动态目标（车、行人、骑手）分别建模，支持自由视角渲染

哪怕主车走了一条原始日志里从没出现过的轨迹，渲染器也能实时生成对应的摄像头画面。

第三步，行为世界模型生成各种场景。

场景建好了，但里面的车都是只会按日志里录好的轨迹走的，换条路就不知道怎么办了。所以需要一个能主动生成周围车行为的模型，让整个场景能任意变化。

论文用的是基于 DiT 的行为世界模型，给某辆车设一个目标点，它就会朝那个方向运动，或者直接用梯度引导，把采样方向推向「主车最难处理」的结果

从原始那一个危险场景出发，扩展出数百种不同的交通变体，全程不需要重新训练任何东西，引导逻辑完全发生在推理阶段。

第四步，RL 后训练。

有了高保真仿真环境，有了能生成对抗行为的世界模型，接下来就是训练。

训练目标是行为正则化的 RL 问题，奖励函数同时考虑碰撞规避、驾驶舒适度、路径进度。而且还有一个 KL 散度惩罚项，确保约束后训练策略不会太发散，必须在预训练先验的范围内改进，否则模型很快会忘掉怎么正常开车。

最终结果：

在工业级闭环仿真平台上，碰撞率下降了 45.5%。然后是问界 M9 在 200 公里上海真实道路测试里零次接管。

这个思路其实也是今年大家都在做的，预训练覆盖广度，后训练负责稀疏高难度分布。

发布于北京