昨天英国的 L4 公司 Wayve 发博客介绍了他们的自动驾驶生成模型 GAIA-1，简单来说，这是一个基于视频、文本和控制输入，输出驾驶视频的模型，可以提供对本车行为和场景特征的精细控制。 GAIA-1 不是特斯拉 FSD v12 那种 Video in Control out 的逻辑，输入包括视频、文本以及控制信号，但核心是一个

昨天英国的 L4 公司 Wayve 发博客介绍了他们的自动驾驶生成模型 GAIA-1，简单来说，这是一个基于视频、文本和控制输入，输出驾驶视频的模型，可以提供对本车行为和场景特征的精细控制。

GAIA-1 不是特斯拉 FSD v12 那种 Video in Control out 的逻辑，输入包括视频、文本以及控制信号，但核心是一个世界模型，是一个自回归的 Transformer，通过上一帧视频，以及文本和控制信号来预测下一帧视频。

这个世界模型有 65 亿参数，在 64 台英伟达 A100 上训练了 15 天。

世界模型输出图像 token 后，有一个视频的 Diffusion 模型负责解码，将其转换成视频。这个 Diffusion 模型有 26 亿参数，在 32 台英伟达 A100 上训练了 15 天。

简单加一加，GAIA-1 不就大概 90 亿参数了。训练数据集很简单，从 19 年到 23 年在英国伦敦收集的 4700 个小时的驾驶数据。

对比特斯拉 FSD v12，GAIA-1 还是有更强的研究性质，而 v12 已经被架在火上，解完一个又一个工程难题就要推给用户了。

特斯拉也有碾轧 Wayve 的算力，光 H100 就 10000 块，这之前的 14000 块 GPU 里也有不少 A100。当然，特斯拉的世界模型最终肯定要做成 360 度的，对算力要求也更高。

数据上的差距就更不用说了，没法比。

为什么算力和数据很重要？

Wayve 已经通过 GAIA-1 证明，大语言模型领域的缩放定律同样适用于自动驾驶领域。

Wayve 的结论是，随着 GAIA-1 模型和训练数据规模的扩大，其生成视频的成熟度和性能都在不断提高。通过扩展数据和算力，仍然有很大的改进空间。

这个领域太让人兴奋了！

发布于上海