特斯拉昨天发布了一个 Optimus 机器人更新的视频,这个视频比特斯拉上周发的机器人跳舞视频重要十倍,放在整个机器人领域来讲,也是十分炸裂的存在。
视频里的 Optimus 机器人学会了把垃圾丢进垃圾桶、收拾桌子、取下纸巾、拿勺搅锅、用吸尘器、把 Model X 的前连杆拿出来放在手推车的右边斜架上(这个是故意放的吧哈哈)、开橱柜门、拉窗帘、按细小的按钮所有这些差异非常大的任务。
所有这些任务是用同一个深度神经网络,并且仅通过视频数据学会的。这毫无疑问应该是一个前所未有的突破。
在此之前,训练机器人模型的数据通常包含 3 类,分别是遥操作数据、合成数据和视频数据。
遥操作数据就是人戴上 VR 头盔、戴上带有 IMU 和传感器的手套,生成高精度的动作数据,供机器人模型进行模仿学习,质量最高、规模最小。
合成数据其实就是仿真数据,在一个高质量的仿真器里不断生成仿真数据,用以训练机器人模型。
视频数据也就是互联网数据,用以预训练一个基础模型,通常是训练环节的第一步,后面再进行微调。
因为机器人领域没有辅助驾驶领域那样无限、免费、高质量的数据,因此关于机器人数据集的分布,应该重遥操作还是重仿真,分歧很剧烈,国内也有不同的创业公司在押注不同的方向。
特斯拉最后给出的解法是,既不那么重遥操作,也不那么重仿真,最重要的是可以通过直接看视频学习做新的任务!
因为遥操作积累的数据集很难规模化,仿真数据集在 Sim 2 Real 转到现实世界中,模型性能很容易不稳定,但互联网上第三人称做各种任务的视频是免费、无限、高质量的。
需要再次指出,下面这个视频里的机器人模型是仅通过视频数据训练得来的,没有遥操作数据,没有仿真数据。
特斯拉 Optimus 工程 VP Milan Kovac 说,目前特斯拉还是使用的第一人称视角的视频数据训练,接下来会转向第三人称视角的数据集。如果第三人称数据集学习得以实现,举个例子,当你想让机器人学做宫保鸡丁,只要找网上宫保鸡丁的视频素材就行,这几乎称得上是数据范式的变化了。
在此基础上,特斯拉会通过仿真和强化学习的自我对弈(从错误中改进)来提升模型的可靠性。
Google DeepMind 负责 Gemini Robotics 模型的研究科学家 Ted Xiao 评论说:
「机器人和 AI 领域有一些高杠杆赌注,这些赌注虽然有风险,但一旦拿下,将会产生变革级别的影响。
特斯拉现在在一个赌注中取得了突破:将人类交互视频中的知识直接转移到机器人控制中。显然,特斯拉在从「噪声较大」的人类数据中学习方面取得了一些进展,这类似于从基于 LiDAR 的自动驾驶汽车转向基于纯视觉的自动驾驶汽车。 」
