王科-WANGKE 26-02-25 10:12
微博认证:汽车博主 微博新知博主 微博原创视频博主

近日,英伟达机器人研究总监 Jim Fan(范吉)发布了一段演示视频,以宇树 G1 人形机器人为硬件平台,直观展示了其团队开发的 SONIC 模型在真实世界中的最新能力。
很多人一听到 AI 模型,第一反应就是参数越大越厉害,但 SONIC 直接颠覆了这个认知。它是一个只有4200 万参数的超小型 Transformer 模型,体量甚至不到最早 GPT-1 的一半。就是这么一个小模型,却实现了人形机器人完整的全身自然控制,深蹲、转身、爬行、快速冲刺等复杂动作都流畅稳定,动作质感与人类高度接近。
按照 Jim Fan 的介绍,SONIC 最核心的突破,是用一个模型就成功捕捉到了人类的 “系统 1” 智能 —— 那种不需要思考、快速反应、下意识就能完成的全身运动能力。它的训练思路也和传统方式完全不同,没有针对每个动作手动设计奖励机制,而是直接使用海量人类动作捕捉数据,以高密度、逐帧监督的方式让模型学习,简单说就是让模型在保持平衡的前提下,自主学会摆出各种人类姿势。
在训练规模上,SONIC 更是做到了前所未有的程度:用上亿帧动作捕捉数据,在 128 块 GPU 上同时训练超过 50 万个并行机器人,再借助 NVIDIA Isaac Lab 将物理模拟速度提升到现实世界的一万倍,让机器人在几小时内就能积累相当于现实中好几年的学习经验。整个训练过程仅用三天,模型便直接零样本迁移到现实世界的 G1 机器人身上,无需任何额外微调,在 50 种完全不同的现实动作测试中,成功率达到 100%。
一个 SONIC 模型,就能支持几乎全品类控制方式:VR 全身远程操作、机器人实时模仿摄像头前的人体动作、文字指令控制侧身走、跳舞、踢左脚,甚至播放音乐就能跟着节拍舞动。同时它还能对接 VLA 基础模型 GR00T,移动任务成功率达 95%。
这种小模型、强能力、大规模并行训练的路线,直接拉开了与特斯拉 Optimus、Figure、EngineAI 等行业对手的差距。目前 SONIC 的推理代码和模型已完全开源,训练代码和与 GR00T 的集成也将很快推出,意味着普通人也能轻松实现人形机器人的通用全身远程操作。
可以说,SONIC 不只是一个模型,更是人形机器人运动控制方向的一次重大革新,也让我们看到:未来人形机器人的普及速度,很可能比我们想象的快得多。#大v聊车# http://t.cn/AXccOq7a

发布于 北京