特斯拉AI最新技术分享—FSD端到端大模型到具身智能的统一架构（上）摘自李阿由特斯拉 AI 的副总裁Ashok，在2025 ICCV中介绍了特斯拉AI团队最新的工作成果，包括Optimus与FSD共享的工作成果，Musk也在X上留言，Optimus AI会很棒。以下是演讲文本内容翻译和总结：大家好，非常高兴能在这里与大

特斯拉AI最新技术分享—FSD端到端大模型到具身智能的统一架构（上）

摘自李阿由

特斯拉 AI 的副总裁Ashok，在2025 ICCV中介绍了特斯拉AI团队最新的工作成果，包括Optimus与FSD共享的工作成果，Musk也在X上留言，Optimus AI会很棒。

以下是演讲文本内容翻译和总结：

大家好，非常高兴能在这里与大家分享。我仍然非常激动能借这个机会介绍我们过去几个月在特斯拉AI团队取得的最新进展。今天我代表整个团队发言，过去的一年，我们在自动驾驶领域取得了几项具有里程碑意义的成果。

在今年六七月间，特斯拉正式启动了Robotaxi（无人出租车）服务。目前在奥斯汀和湾区，如果你身处这两个城市，就可以召唤一辆完全无人驾驶的特斯拉。在奥斯汀的城区道路上（限速40英里/小时以下），这些车辆可以在没有驾驶员的情况下自主行驶。

此外，我们还完成了一次具有象征意义的尝试：我们让一辆刚从奥斯汀工厂下线的量产车，自动驾驶到客户家中完成交付。整个过程持续20到30分钟，途经高速公路、城市道路与停车区域。客户看到自己的新车全程无人驾驶抵达家门，那一刻非常震撼。

这并不是特制原型车，而是一辆完全量产、量产配置、量产硬件的特斯拉。同样的计算平台、同样的摄像头系统、同样的软件。事实上，在美国生产的每一辆特斯拉，如今都能从制造线末端自主驾驶数英里到装载区，而不需要人工操作。

这一年，我们在自主驾驶能力上迈出了巨大的一步。接下来，我们要做的，是让这种能力更加鲁棒，更加通用，让特斯拉能够在更多城市、更多场景下实现真正的无人驾驶。

特斯拉的核心变革：端到端神经网络
今天我想重点谈谈支撑这一切的底层技术。目前，特斯拉的自动驾驶系统已经全面转向单一的大规模端到端神经网络（End-to-End Neural Network）。

这意味着我们不再依赖传统的分模块处理——不再先“识别车辆”，再“检测车道线”，再“规划路径”。系统的输入是原始像素流和其他传感器信息，输出则是车辆应采取的下一个动作（例如转向角、加速度）。也就是说，整个感知、理解与决策过程全部在一个统一的网络中完成。这种方式极大地简化了架构，也让整个系统更具一致性和实时性。

过去那种手动定义的分层结构虽然方便调试，但它存在根本缺陷：
人类的驾驶行为和价值偏好是模糊而多样的，你无法用几条规则去准确描述“什么是好的驾驶”。例如：什么时候该减速？面对障碍是选择刹车还是绕行？什么速度最舒适？

这些都取决于上下文与人类偏好，没有唯一答案。用规则去定义这样的行为，几乎是不可能的。我们发现，与其“写死规则”，不如让神经网络直接学习人类驾驶数据中的隐性价值判断。如此一来，模型不仅能模仿动作，还能学会“为什么要这么做”。

为什么端到端比传统架构更优
除了能捕捉人类行为的模糊性，端到端还有几个非常实际的工程优势。

首先，它让计算延迟更确定。传统模块化系统的每一层计算耗时不同，会造成不可预测的延迟。但在自动驾驶这样的实时系统中，延迟不稳定是致命的。端到端网络使用统一的计算图，整个过程连续、可控，能保证严格的时序一致性。

其次，它让不确定性得以自然传播。在传统架构中，感知模块输出的检测结果往往是“确定的标签”，但在实际中，这些结果有置信度差异。端到端网络可以直接把这些不确定性传递给决策部分，使系统的判断更稳健。

总的来说，过去的“模型化系统”就像一个拼接出来的机器，功能可用但脆弱；而端到端神经网络，则更像一个有机体，它能自我学习、适应与修正。

复杂行为的智能演化：机器的“语境理解力”
为了说明为什么这很重要，我举几个例子。有一次，车辆前方出现一个积水坑。
系统自动判断：避开它需要短暂驶入对向车道。如果你用传统的规则来写，这几乎是不可能的——因为“跨线”通常被定义为违规行为。但从语义上看，这种避让是合理、安全且合乎人类驾驶直觉的。我们的模型正是通过大量真实驾驶样本学习到了这一点。

另一个例子更有趣：

一群鸡在马路上慢悠悠地过马路。第一个视频，车辆停下，等待所有鸡走完，哪怕中间有空隙也不贸然前进。系统理解到“这些鸡还没完全离开道路”，这是人类式的耐心。

还有一段视频，车前有几只大鹅。车辆先停下观察，判断这些鹅没有穿越意图，而是停在原地，于是选择倒车、绕行、再并回车道。

这种“推理式理解”正是端到端模型带来的环境理解能力。这些行为并不是被程序员“教出来”的，而是模型通过观察人类驾驶行为，自己学会的。

维度的诅咒：数据洪流与智能压缩

在端到端架构下，我们遇到的第一个巨大挑战，就是所谓的“维度诅咒”（Curse of Dimensionality）。

想象一下，一辆特斯拉同时从 8 个摄像头捕获 36 帧每秒的视频流，每帧图像分辨率高达几百万像素。这意味着——仅仅 30 秒的驾驶数据，就可能包含数十亿个像素级“token”。
而模型最终只需要输出两个数值：方向盘的角度与油门/刹车的控制量。

这是一种极端的信息压缩任务。你需要让网络在这海量数据中，准确捕捉到哪些像素真正影响驾驶决策。如果没有强大的数据系统和神经结构，这几乎是不可能的。

Ashok 形容这是一种“世界级难题”：“我们必须让系统从噪声中找到规律，从视觉中提取控制，从像素中推理语义。”

发布于河南