小米人形机器人自主工作3小时

#小米人形机器人已能自主工作3小时# 我最近一直在想一个问题：自动驾驶和机器人的端到端，难度到底差在哪？

自动驾驶的端到端，输出的是轨迹——车往哪走、速度多少、怎么变道。轨迹规划错了，下一秒可以重算，系统有容错空间。但机器人的端到端，输出的是动作——关节角度、力矩、抓取姿态。手伸出去抓螺丝，位置偏了就是偏了，重试的物理成本极高，物理世界不给你回档。

更深层的问题是动作空间的维度。自动驾驶轨迹规划，输出维度相对固定（位置、速度、朝向，通常6-10维）。人形机器人单臂7个关节，双臂14个，加上移动底盘，动作空间几十维。每多一维，可行解空间指数级膨胀，优化难度完全不是一个量级。

但真正让我头疼的是接触力学。车在路上跑，轮胎和地面是"软接触"，摩擦模型相对稳定。机器人拧螺丝，金属碰金属，力控差一点就滑牙或者拧歪。这种刚性接触的动态反馈，VLA模型怎么实时响应？目前主流方案是分层架构——大模型做高层规划，底层力控用传统控制器（如阻抗控制或PID）兜底。但两层怎么无缝切换，边界怎么划分，又是工程难题。

小米这次验证的是特定工站的端到端——自攻螺母上件，动作相对固定，环境相对可控。这比通用抓取简单，但已经触及当前技术边界。雷军说的"万次任务次次成功"，其实是在压缩方差——不是追求单次完美，是让失误率在统计意义上可接受，满足产线节拍。

我在做的项目里，也经常面临这种精度与泛化的权衡。自动驾驶可以靠高精地图和规则兜底，机器人没有地图，每把螺丝都是新场景。这可能解释了为什么人形机器人进工厂，先从结构化环境开始，而不是直接上柔性产线。

你觉得VLA的终局，是一个模型通吃所有任务，还是专用模型+任务切换的混合架构？ #一本书读懂人形机器人##微博新知#

发布于江苏