理想提出对齐FSD V14

理想今天提出第四季度对齐FSD V14，以下是还未上线的《FSD V14北美体验》节目中的一段文字，提前发出来吧。

Ashok 在 2026 年的 CVPR 上提到：特斯拉 FSD 的 7 路 500 万像素摄像头，以 36 帧/秒的规格采集图像，并处理 30 秒的历史数据。如果最终压缩为 5x5 的像素框，这相当于输入了 20 亿个 Token。而模型最终输出了两个核心维度的 Token——转向与加速度。

但在真实的物理世界中，驾驶变量的组合呈指数级爆炸。在无限的可能中，哪两个 Token 的组合才是最优解，并没有标准答案。

特斯拉在用通用 AGI 的方式解决自动驾驶难题。将无限的物理世界压缩为有限的控制 Token，依靠“规模化车队数据”来对抗维度灾难。目前 108 亿英里的 FSD 数据积累，本质上就是一个将物理世界极限数字化的过程。

同时，特斯拉通过引入旁路输出与自然语言思维链（CoT），试图破解端到端大模型的黑盒不可解释性；并基于世界模拟器（World Sim NN）实现了低成本的闭环评估与对抗训练。

你会发现，这些技术路线并非机密，在 AGI 行业内几乎是公开的共识。

特斯拉之所以能将其跑通，核心在于两点：一是对数据的极致利用，完全吃透了北美的交规、驾驶习惯与风格；二是极其强大的工程能力，例如在缩短系统推理时延这一项上，就足以碾压所有友商。

那作为中国本土的辅助驾驶系统，我们应该怎么做？？

这是我提给自己，也提给行业的一个问题。希望我们能找到各自的答案。

这期节目，会在适合的时间点上线。

#2026理想livis day#

发布于北京