SONIC模型革新机器人控制

近日，英伟达机器人研究总监 Jim Fan（范吉）发布了一段演示视频，以宇树 G1 人形机器人为硬件平台，直观展示了其团队开发的 SONIC 模型在真实世界中的最新能力。
很多人一听到 AI 模型，第一反应就是参数越大越厉害，但 SONIC 直接颠覆了这个认知。它是一个只有4200 万参数的超小型 Transformer 模型，体量甚至不到最早 GPT-1 的一半。就是这么一个小模型，却实现了人形机器人完整的全身自然控制，深蹲、转身、爬行、快速冲刺等复杂动作都流畅稳定，动作质感与人类高度接近。
按照 Jim Fan 的介绍，SONIC 最核心的突破，是用一个模型就成功捕捉到了人类的 “系统 1” 智能 —— 那种不需要思考、快速反应、下意识就能完成的全身运动能力。它的训练思路也和传统方式完全不同，没有针对每个动作手动设计奖励机制，而是直接使用海量人类动作捕捉数据，以高密度、逐帧监督的方式让模型学习，简单说就是让模型在保持平衡的前提下，自主学会摆出各种人类姿势。
在训练规模上，SONIC 更是做到了前所未有的程度：用上亿帧动作捕捉数据，在 128 块 GPU 上同时训练超过 50 万个并行机器人，再借助 NVIDIA Isaac Lab 将物理模拟速度提升到现实世界的一万倍，让机器人在几小时内就能积累相当于现实中好几年的学习经验。整个训练过程仅用三天，模型便直接零样本迁移到现实世界的 G1 机器人身上，无需任何额外微调，在 50 种完全不同的现实动作测试中，成功率达到 100%。
一个 SONIC 模型，就能支持几乎全品类控制方式：VR 全身远程操作、机器人实时模仿摄像头前的人体动作、文字指令控制侧身走、跳舞、踢左脚，甚至播放音乐就能跟着节拍舞动。同时它还能对接 VLA 基础模型 GR00T，移动任务成功率达 95%。
这种小模型、强能力、大规模并行训练的路线，直接拉开了与特斯拉 Optimus、Figure、EngineAI 等行业对手的差距。目前 SONIC 的推理代码和模型已完全开源，训练代码和与 GR00T 的集成也将很快推出，意味着普通人也能轻松实现人形机器人的通用全身远程操作。
可以说，SONIC 不只是一个模型，更是人形机器人运动控制方向的一次重大革新，也让我们看到：未来人形机器人的普及速度，很可能比我们想象的快得多。#大v聊车# http://t.cn/AXccOq7a

发布于北京