Wayve 发布了第二代世界模型 GAIA-2,有几个细节有了很大突破:
- GAIA-2 可以同时预测和生成 5 个不同视角的摄像头的视频流,分别是前向和左右的侧前侧后,并且这 5 个视频流具备跨视角的时空一致性,也就是 5 个视角的视频表征的画面符合物理规律,这个对于进一步应用于感知和推理至关重要。
- GAIA-2 不仅可以模拟自车的行为,也能很好的模拟其他交通参与者的行为,以及道路结构、天气、一天中不同时间的光照等外部环境。
- 多样性,在美、英、德 3 国的近 100 个城市,不同车辆平台(乘用车和货车),不同的传感器配置上进行了训练。
- 可以生成主动安全场景,比如仿真 AEB 这种。
目前看到的几个疑惑:
1. 多视角预测肯定是方向,但 5 个摄像头显然不是量产配置,标准的量产配置应该是前 2,左右侧前侧后各 2,后 1 共 7 个摄像头才对,5 个摄像头,正后方完全缺席,有点无厘头。
2. 视频流分辨率只有 448x960,这个也不太量产。
3. 基于 2500 万个 2 秒的视频训练而来,这个数据集规模是否小了一点?这个恰恰也是 Wayve 的短板吧,收集不到足够规模的数据。
感觉整个工作质量已经很高,但是还是有一些比较奇怪的问题。
发布于 上海
