特斯拉 Optimus 的深度分析文章(上)
摘自 野生智驾工程师
这是Phil Beisel关于特斯拉Optimus的深度分析文章的第一部分(原文链接:http://t.cn/AX5Or3Za)。文章详细阐述了 Optimus 如何通过芯片、智能和机械硬件的融合,成为改变人类历史的“无限金钱漏洞”。
特斯拉的 Optimus 将成为一款定义性的产品——它将在人类历史上划出一条清晰的界线,区分出“之前”与“之后”。
这不仅仅是技术的渐进式改良,也不是一种新类别的电子小玩意。Optimus 标志着智能离开屏幕、大规模进入物理世界的时刻。
作为一个人形机器人,Optimus 将为消费者和企业带来前所未有的生产力。但仅用“生产力”一词还不足以概括其影响。Optimus 是通用劳动力:它适应性强、自主且不知疲倦。这使它与之前所有的主要技术平台有着根本的区别。
iPhone 是过去半个世纪最重要的消费产品,因为它把一台电脑放进了每个人的口袋。而 Optimus 将通过把工人部署到各个角落——家庭、工厂、仓库,乃至整个经济体——来超越那个时刻。回过头看,iPhone 就像是一个前奏,虽然具有变革性,但仍被局限在屏幕之内。
与以往的技术平台不同,Optimus 拥有代理权(Agency)。它能感知、推理、与人类自然交流,并在现实世界中采取行动。它能完成人类能做的大部分任务,而且随着时间的推移,它会做得更好、更便宜,且持续不断。
Optimus 代表了先进机器人技术与人工智能融合成的一个单一系统:具身智能(Embodied Intelligence)。
本文是系列文章的第一篇,旨在探索这台可能成为人类制造过的最重要机器背后的技术。
移动的智能 (Moving Intelligence)
Optimus 代表了一种全新的事物:在物理空间中带有目的地移动的智能。它不是被禁锢在屏幕里的软件,也不是被栓死在单一任务或环境中的自动化设备。它是通用的、在现实世界中自由运行的具身智能。
这种区别至关重要。以前的技术平台主要通过屏幕设备(电脑、手机、平板)来增强人类的认知、沟通或协作。它们延伸了大脑,但在视觉和物理上与其影响的世界是分离的。Optimus 打破了这一界限。它增加了代理权。它感知周围环境,对其进行推理,并持续、自主、大规模地在其中行动。
从核心来看,Optimus 是高密度智能与灵巧性的结合。一个强大的 AI 系统运行在特斯拉专为 AI 设计的系列芯片(AI5、AI6 及更高版本)上,并直接嵌入到一台能够像人类一样运动和操作的机械硬件中。这种融合使得 Optimus 与之前所有的机器人有着本质区别。工业机器人精准但盲目且脆弱;软件代理虽然智能但没有实体。Optimus 既智能又具备实体。
这也是改进速度变得前所未有的原因。
正如埃隆·马斯克(Elon Musk)所描述的,人形机器人处于三个复合指数级增长的交汇点:
“你有三个指数级增长在相互通过乘法叠加:AI 软件能力的指数级增长、AI 芯片能力的指数级增长,以及机电灵巧性的指数级增长。人形机器人的实用性就是这三者相乘的结果。”
乘法效应是关键的洞察。任何一个维度的进步都会改善 Optimus。三个维度同时进步会导致能力迅速复合增长。更好的模型能更有效地推理;更好的 AI 芯片能让这些模型运行得更快、更便宜、更本地化,并具有极高的每瓦智能(intelligence-per-watt);更好的执行器、手部和传感器允许智能以更高的精度和范围在物理上表达自己。
随之诞生的不是一台单一用途的机器,而是一个通用工人。Optimus 不仅限于搬运、清洁或烹饪等蓝领劳动。同一个能够执行物理任务的系统,也可以安排日程、分析数据、沟通、管理库存或处理行政和会计工作。当智能具备了实体和移动能力,白领和蓝领的区别就消失了。
本文的其余部分(以及随后的系列文章)将详细探讨这三个指数级增长因素——智能、芯片和机械硬件。它们共同解释了为什么 Optimus 不仅仅是另一个机器人,而是通用具身智能新时代的开端。
芯片 (The Silicon)
对于具身智能而言,计算必须在本地且在严格的约束下进行。延迟、功耗、热限制和成本不仅仅是可能性的边界;它们定义了什么是卓越。对于 Optimus 来说,芯片是满足或暴露这些约束的关键所在。
Optimus 由特斯拉专为此目的打造的 AI 芯片驱动。初始单元将使用 AI4,但大规模生产将始于 AI5。截至撰写本文时,AI5 已处于流片(tape-out)阶段,意味着设计已定稿并进入制造环节。它将在台积电(TSMC)和三星进行双源供货,以降低供应风险并赋予特斯拉在两家先进代工厂之间的运营灵活性。预计将在今年年底实现批量供货。
AI5 不仅仅是 AI4 的高性能继任者。它反映了特斯拉设计芯片思路的转变。
特斯拉基于视觉的自动驾驶堆栈(FSD)强加了一套不可妥协的约束,推翻了早期关于通用加速的假设。在实时、可预测的延迟和有限的功率下运行大型视觉密集型模型,暴露了效率低下的确切位置。这些发现直接输入到了 AI5 的架构决策中。
因此,AI5 是围绕已知的工作负载而非理论上的灵活性设计的。该芯片优先考虑特斯拉模型实际使用的执行模式:视觉处理、时序场景理解、规划和控制。其目标不是最大的通用性,而是在持续负载下的确定性、实时行为。
一个例子可以说明这种方法。Softmax 是现代神经网络中的核心运算,通常在推理过程中调用,历史上是在通用计算路径(CPU)上通过软件执行的。特斯拉在 AI5 中将此操作直接移入芯片硬件。结果是巨大的,该部分工作负载的效率提高了约 40 倍。这种级别的收益实质性地改变了哪些模型可以在移动平台上本地且持续地运行。
这种优化只有通过深度的垂直整合才可能实现。当同一个组织设计模型、调度和执行模型的软件堆栈以及芯片本身时,整层的开销都可以被消除。那些原本会导致“暗硅”(dark silicon,即未使用或未充分利用的硬件)的通用性被有意移除,从而减少了浪费的功率、延迟和热量。
AI5 同样是为可制造性而设计的。它是一个半掩膜(half-reticle)芯片,使其保持在标准光刻限制内。这提高了良率,降低了成本,并使得特斯拉能够在其平台间实现极高产量的扩展。AI5 不仅用于 Optimus,也用于全自动驾驶(FSD),包括像 Cybercab 这样的部署(每辆车配备两个 AI5 单元)。
能效是核心。 Optimus 是一个移动系统,计算直接与运动、续航和热余量争夺资源。过度的低效会转化为无法散发的热量和无法用于其他地方的能量。AI5 的目标功耗约为 250 瓦,在性能与持续运行之间取得平衡。这里重要的不是峰值吞吐量,而是每瓦智能——即在本地、持续且可预测地运行强大模型的能力。
这是特斯拉的芯片战略与以数据中心为导向的 AI 硬件分道扬镳的地方。Optimus 不需要最大吞吐量。它需要在严格的功率范围内进行确定性的、实时的执行。AI5 正是围绕这一要求设计的。
在马斯克的三个指数级增长中,芯片是允许其他因素复合增长的乘数。更好的模型只有在能够于 Optimus 的功率、延迟和热限制内本地执行时才有意义。AI5 使 Optimus 能够在它设计运作的现实世界条件下,自主、持续且大规模地运行。
发布于 河南
