Wayve 发布了第二代世界模型 GAIA-2，有几个细节有了很大突破：- GAIA-2 可以同时预测和生成 5 个不同视角的摄像头的视频流，分别是前向和左右的侧前侧后，并且这 5 个视频流具备跨视角的时空一致性，也就是 5 个视角的视频表征的画面符合物理规律，这个对于进一步应用于感知和推理至关重要。- GAI

Wayve 发布了第二代世界模型 GAIA-2，有几个细节有了很大突破：

- GAIA-2 可以同时预测和生成 5 个不同视角的摄像头的视频流，分别是前向和左右的侧前侧后，并且这 5 个视频流具备跨视角的时空一致性，也就是 5 个视角的视频表征的画面符合物理规律，这个对于进一步应用于感知和推理至关重要。

- GAIA-2 不仅可以模拟自车的行为，也能很好的模拟其他交通参与者的行为，以及道路结构、天气、一天中不同时间的光照等外部环境。

- 多样性，在美、英、德 3 国的近 100 个城市，不同车辆平台（乘用车和货车），不同的传感器配置上进行了训练。

- 可以生成主动安全场景，比如仿真 AEB 这种。

目前看到的几个疑惑：

1. 多视角预测肯定是方向，但 5 个摄像头显然不是量产配置，标准的量产配置应该是前 2，左右侧前侧后各 2，后 1 共 7 个摄像头才对，5 个摄像头，正后方完全缺席，有点无厘头。

2. 视频流分辨率只有 448x960，这个也不太量产。

3. 基于 2500 万个 2 秒的视频训练而来，这个数据集规模是否小了一点？这个恰恰也是 Wayve 的短板吧，收集不到足够规模的数据。

感觉整个工作质量已经很高，但是还是有一些比较奇怪的问题。

发布于上海