特斯拉Optimus深度分析

特斯拉 Optimus 的深度分析文章（中）

摘自野生智驾工程师

智能 (The Intelligence)
Optimus 的智能是严格意义上的人工智能。它不是由传统软件控制的机器人，也不是由规则拼凑而成的行为集合。它是一个学习系统，能够感知世界，形成内部表征，并在其中持续行动。

这也是特斯拉在全自动驾驶（FSD）上所做的架构突破。它证明了端到端学习——即获取原始传感器输入并直接产生动作——可以超越数十年来精心设计的模块化自动驾驶堆栈。这种转变在当时是非凡的，它需要真正的突破。然而事后看来，这在概念上也是合理的：驾驶，就像操作和移动一样，不是离散规则的集合，而是与物理世界的连续交互。Optimus 将同样的想法从驾驶扩展到了通用物理工作。

Optimus 的核心是一个单一的、巨大的、统一的神经网络。它不是为了单独的任务而被划分为独立的子系统，而是一个在海量视频和交互数据上进行端到端训练的稠密模型。该网络通过多个摄像头接收感官输入，从关节接收本体感受信号，从手部接收力和触觉反馈，并产生连续的控制输出，如关节扭矩、手部动作、移动和平衡。

在网络内部，“看”、“决定”和“行动”之间没有硬性边界。这些区别作为概念存在，但不是作为独立的软件块存在。在训练期间，整个网络会根据其动作与成功结果的匹配程度进行整体调整。实际上，这意味着学会更好地“看”也会改善机器人的移动方式，而学会更好地移动也会改善它如何解释看到的东西。子技能并不孤立存在。它们作为共享的内部模式涌现，分布在网络的参数中。

这就是 Optimus 能够泛化（generalize）的原因。

一个受过训练去拿鸡蛋等易碎物品的网络，不需要为了拿液体而建立单独的程序。脆弱性、稳定性、力量调节和平衡的概念已经嵌入在其内部表征中。端着一杯满水并不是一种全新的能力；它是系统已经学到的模式的自然延伸。

系统不是从“任务”的角度思考。它是从“结果”的角度思考。

在这个网络之上是一个规划器（Planner）。规划器的作用不是微观管理动作或发出诸如“左移手臂”或“闭合手指”之类的低级指令。在传统机器人技术中，那是符号命令：试图一步步描述动作的明确的人工编写指令。相反，规划器的工作是确定意图并排序目标。从概念上讲，它的操作方式是发出一项可以概括为：“让世界变成这样”的指令。

规划器将该指令表示为一个目标嵌入（goal embedding）。嵌入只是意图的一种紧凑的数值表示，一种将“应该成真之事”编码为神经网络可以直接使用的形式的方法。它不是语言。它不是句子、字符串或 Token。它是一个固定大小的向量，在机器人朝着该目标工作时保持不变。只有当规划器决定目标已实现或无法实现时，它才会用一个新的嵌入来替换它。

策略（Policy）在这个过程之下持续运行。它始终处于激活状态，每秒产生多次动作，类似于全自动驾驶在车辆行驶时每秒运行其神经网络数十次。在每个循环中，策略会查看世界的当前状态以及活跃目标，并决定下一步做什么。它不像离散步骤那样思考，而是像一个控制系统，随着条件的变化实时平滑地调整运动。

特斯拉特意使用“策略”一词。这个网络被训练来行动，而不是来分类或标记。它不输出供人类解释的建议或概率。它输出控制。

在内部，策略保留了刚刚发生的事情的短期记忆。这使得它能够平滑运动，避免抖动或来回摆动，并将动作在时间上向前推进。简单来说，它记得足够多的近期过去，以便流畅地移动，而不是像每一刻都与上一刻断开那样做出反应。

相比之下，规划是离散推进的。规划器一步步操作，在继续之前检查当前目标是否已满足。它使用所谓的谓词（predicates）来评估成功：源自感知和内部状态的条件，回答诸如“物体是否在手中”、“容器是否已满”或“是否已到达目的地”等问题。策略本身从不宣布成功。成功是通过观察世界并确认其现在与期望的结果相匹配来确定的。

这种架构避免了困扰早期机器人技术的故障模式。没有巨大的 switch 语句在行为之间进行选择。没有手动编码的转换试图预测每一种可能的情况。没有符号逻辑系统试图使用脆弱的规则描述物理世界。相反，机器人对世界的大部分理解是隐性的（latent），这意味着它隐含地存在于网络的学习表征中，而不是作为显式变量或标志。行为之间的转换是由学习到的条件驱动的，而不是由人类编写的逻辑驱动的。

至关重要的是，Optimus 在传统意义上不是模块化的。没有单独的“抓取模块”，没有独立的“行走模块”，也没有显式的路由机制来决定激活哪种技能。行为潜在于同一个网络中。它们总是存在，总是可用，并且当情况和目标需要它们时自然表达出来。

这反映了人类的运动控制。人类不会有意识地激活一个“爬楼梯子系统”。你只是走，楼梯之所以能走，是因为你的神经系统通过经验学会了如何处理它们。Optimus 的行为方式也是如此。

当人类发出像“给我拿瓶苏打水”这样的命令时，语言充当了意图的压缩层。一个短句代表了一长串隐含的动作。一个大语言模型（LLM）将该压缩请求扩展为由目标组成的结构化作业。但语言模型并不控制机器人的身体。它不生成运动。它只是将人类意图转化为规划器可以使用的形式。

然后规划器对这些目标进行排序，一次将一个目标嵌入注入策略中。策略持续执行。规划器进行观察。当一个目标满足时，它推进到下一个。

重要的是，Optimus 不需要详尽的、特定于任务的训练。系统不需要提前看到每一个可能的完整任务序列。它从视频（包括人类演示、工厂录像和模拟环境）中整体地学习组件，规划器根据需要组合它们。

当缺少某种能力时，解决方案不是在本地训练单个机器人或孤立地修改其神经网络。单个 Optimus 单元不会演变成独立的智能体。相反，学习发生在车队层面（fleet level）。人类演示一次任务。该数据被传回特斯拉，并入全局模型，并通过更新分发回所有机器人。每一个 Optimus 都在一起进步。

这与特斯拉在全自动驾驶上建立的学习飞轮是一样的。数据改进模型。模型改进行为。更好的行为产生更好的数据。对于 Optimus，这个循环超越了车辆，延伸到了实体经济中：工厂、仓库、办公室、家庭以及任何进行物理工作的环境。

结果不是一台执行代码的机器。而是一台执行意图的机器。

这种区别正是 Optimus 不仅仅比以前的机器人更强的原因。它是分类上的不同。

机械硬件 (The Machine)
为了让智能在屏幕之外产生影响，它必须是具身的。机械硬件是允许 Optimus 在现实世界中表达智能的物理系统。仅仅让机器人正确思考是不够的；它必须能够将意图转化为精确、可靠的行动。这就是机电灵巧性（Electromechanical Dexterity）起决定性作用的地方。

特斯拉对 Optimus 的目标不是为了运动而运动，而是为了能清晰地映射到人类环境中的运动。家庭、工厂、工具和基础设施都是围绕人体形态设计的。为了广泛实用，Optimus 必须像人一样操作物体、导航空间并与工具互动。特斯拉发布的公开演示显示机器人执行叠衣服、在双手间转移物体、擦拭表面以及与人安全互动等任务。这些不是移动能力的里程碑；它们是操作（manipulation）的里程碑，它们将精细运动控制置于问题的中心。

埃隆·马斯克反复强调，灵巧性，特别是手部的灵巧性，是人形机器人最难的部分。他指出，人手是一个极其复杂的机制，具有许多自由度、微妙的力控制和高度非线性的行为。会走路的机器人现在很常见。能够可靠且灵活地操作物理世界的机器人则不然，至少在大规模层面上没有。

在描述机器人能力的长期上限时，马斯克曾引用手术作为基准。这并不是作为一个近期的产品目标，也不是声称 Optimus 很快就会进行医疗程序。它被用作真正通用操作所需的精度、稳定性和力控制水平的参考点。手术需要持续的反馈、极其精细的动作以及对意外移动的近乎零容忍。任何能够接近该标准的机器必然会超过大多数日常人类任务的机械要求。

机电灵巧性作为第三个指数

马斯克的核心论点之一是，机电灵巧性呈指数级扩展，就像芯片和智能一样。进步不是线性的。执行器、传感器和机械控制的改进不仅仅是让机器人稍微好一点；它们解锁了全新的任务类别。同时，更好的学习控制允许系统从相同的硬件中提取更有用的能力。机械能力和智能相互加强。

特斯拉的专利和技术披露显示，其重点在于分布在机器人全身的定制执行器，包括肩膀、手肘、手腕、臀部、膝盖和手。这些执行器旨在平衡扭矩、速度和精度，而不是最大化原始力量。马斯克曾表示，市售组件无法满足 Optimus 的要求，这促使特斯拉从头开始设计自己的硬件。

灵巧性不仅仅是增加电机的问题。它源于致动、传感和学习控制策略之间的紧密反馈回路。同时需要高自由度、快速响应时间、轻量化结构和连续的感官反馈。在现实世界的能源约束下实现这种平衡，正是人形操作困难的原因。

发布于河南