特斯拉AI最新技术分享—FSD端到端大模型到具身智能的统一架构(上)
摘自李阿由
特斯拉 AI 的副总裁Ashok,在2025 ICCV中介绍了特斯拉AI团队最新的工作成果,包括Optimus与FSD共享的工作成果,Musk也在X上留言,Optimus AI会很棒。
以下是演讲文本内容翻译和总结:
大家好,非常高兴能在这里与大家分享。我仍然非常激动能借这个机会介绍我们过去几个月在特斯拉AI团队取得的最新进展。今天我代表整个团队发言,过去的一年,我们在自动驾驶领域取得了几项具有里程碑意义的成果。
在今年六七月间,特斯拉正式启动了Robotaxi(无人出租车)服务。目前在奥斯汀和湾区,如果你身处这两个城市,就可以召唤一辆完全无人驾驶的特斯拉。在奥斯汀的城区道路上(限速40英里/小时以下),这些车辆可以在没有驾驶员的情况下自主行驶。
此外,我们还完成了一次具有象征意义的尝试:我们让一辆刚从奥斯汀工厂下线的量产车,自动驾驶到客户家中完成交付。整个过程持续20到30分钟,途经高速公路、城市道路与停车区域。客户看到自己的新车全程无人驾驶抵达家门,那一刻非常震撼。
这并不是特制原型车,而是一辆完全量产、量产配置、量产硬件的特斯拉。同样的计算平台、同样的摄像头系统、同样的软件。事实上,在美国生产的每一辆特斯拉,如今都能从制造线末端自主驾驶数英里到装载区,而不需要人工操作。
这一年,我们在自主驾驶能力上迈出了巨大的一步。接下来,我们要做的,是让这种能力更加鲁棒,更加通用,让特斯拉能够在更多城市、更多场景下实现真正的无人驾驶。
特斯拉的核心变革:端到端神经网络
今天我想重点谈谈支撑这一切的底层技术。目前,特斯拉的自动驾驶系统已经全面转向单一的大规模端到端神经网络(End-to-End Neural Network)。
这意味着我们不再依赖传统的分模块处理——不再先“识别车辆”,再“检测车道线”,再“规划路径”。系统的输入是原始像素流和其他传感器信息,输出则是车辆应采取的下一个动作(例如转向角、加速度)。也就是说,整个感知、理解与决策过程全部在一个统一的网络中完成。这种方式极大地简化了架构,也让整个系统更具一致性和实时性。
过去那种手动定义的分层结构虽然方便调试,但它存在根本缺陷:
人类的驾驶行为和价值偏好是模糊而多样的,你无法用几条规则去准确描述“什么是好的驾驶”。例如:什么时候该减速?面对障碍是选择刹车还是绕行?什么速度最舒适?
这些都取决于上下文与人类偏好,没有唯一答案。用规则去定义这样的行为,几乎是不可能的。我们发现,与其“写死规则”,不如让神经网络直接学习人类驾驶数据中的隐性价值判断。如此一来,模型不仅能模仿动作,还能学会“为什么要这么做”。
为什么端到端比传统架构更优
除了能捕捉人类行为的模糊性,端到端还有几个非常实际的工程优势。
首先,它让计算延迟更确定。传统模块化系统的每一层计算耗时不同,会造成不可预测的延迟。但在自动驾驶这样的实时系统中,延迟不稳定是致命的。端到端网络使用统一的计算图,整个过程连续、可控,能保证严格的时序一致性。
其次,它让不确定性得以自然传播。在传统架构中,感知模块输出的检测结果往往是“确定的标签”,但在实际中,这些结果有置信度差异。端到端网络可以直接把这些不确定性传递给决策部分,使系统的判断更稳健。
总的来说,过去的“模型化系统”就像一个拼接出来的机器,功能可用但脆弱;而端到端神经网络,则更像一个有机体,它能自我学习、适应与修正。
复杂行为的智能演化:机器的“语境理解力”
为了说明为什么这很重要,我举几个例子。有一次,车辆前方出现一个积水坑。
系统自动判断:避开它需要短暂驶入对向车道。如果你用传统的规则来写,这几乎是不可能的——因为“跨线”通常被定义为违规行为。但从语义上看,这种避让是合理、安全且合乎人类驾驶直觉的。我们的模型正是通过大量真实驾驶样本学习到了这一点。
另一个例子更有趣:
一群鸡在马路上慢悠悠地过马路。第一个视频,车辆停下,等待所有鸡走完,哪怕中间有空隙也不贸然前进。系统理解到“这些鸡还没完全离开道路”,这是人类式的耐心。
还有一段视频,车前有几只大鹅。车辆先停下观察,判断这些鹅没有穿越意图,而是停在原地,于是选择倒车、绕行、再并回车道。
这种“推理式理解”正是端到端模型带来的环境理解能力。这些行为并不是被程序员“教出来”的,而是模型通过观察人类驾驶行为,自己学会的。
维度的诅咒:数据洪流与智能压缩
在端到端架构下,我们遇到的第一个巨大挑战,就是所谓的“维度诅咒”(Curse of Dimensionality)。
想象一下,一辆特斯拉同时从 8 个摄像头捕获 36 帧每秒的视频流,每帧图像分辨率高达几百万像素。这意味着——仅仅 30 秒的驾驶数据,就可能包含数十亿个像素级“token”。
而模型最终只需要输出两个数值:方向盘的角度与油门/刹车的控制量。
这是一种极端的信息压缩任务。你需要让网络在这海量数据中,准确捕捉到哪些像素真正影响驾驶决策。如果没有强大的数据系统和神经结构,这几乎是不可能的。
Ashok 形容这是一种“世界级难题”:“我们必须让系统从噪声中找到规律,从视觉中提取控制,从像素中推理语义。”
