智算派 26-03-03 10:04
微博认证:汽车博主 微博原创视频博主

#小米人形机器人已能自主工作3小时# 我最近一直在想一个问题:自动驾驶和机器人的端到端,难度到底差在哪?

自动驾驶的端到端,输出的是轨迹——车往哪走、速度多少、怎么变道。轨迹规划错了,下一秒可以重算,系统有容错空间。但机器人的端到端,输出的是动作——关节角度、力矩、抓取姿态。手伸出去抓螺丝,位置偏了就是偏了,重试的物理成本极高,物理世界不给你回档。

更深层的问题是动作空间的维度。自动驾驶轨迹规划,输出维度相对固定(位置、速度、朝向,通常6-10维)。人形机器人单臂7个关节,双臂14个,加上移动底盘,动作空间几十维。每多一维,可行解空间指数级膨胀,优化难度完全不是一个量级。

但真正让我头疼的是接触力学。车在路上跑,轮胎和地面是"软接触",摩擦模型相对稳定。机器人拧螺丝,金属碰金属,力控差一点就滑牙或者拧歪。这种刚性接触的动态反馈,VLA模型怎么实时响应?目前主流方案是分层架构——大模型做高层规划,底层力控用传统控制器(如阻抗控制或PID)兜底。但两层怎么无缝切换,边界怎么划分,又是工程难题。

小米这次验证的是特定工站的端到端——自攻螺母上件,动作相对固定,环境相对可控。这比通用抓取简单,但已经触及当前技术边界。雷军说的"万次任务次次成功",其实是在压缩方差——不是追求单次完美,是让失误率在统计意义上可接受,满足产线节拍。

我在做的项目里,也经常面临这种精度与泛化的权衡。自动驾驶可以靠高精地图和规则兜底,机器人没有地图,每把螺丝都是新场景。这可能解释了为什么人形机器人进工厂,先从结构化环境开始,而不是直接上柔性产线。

你觉得VLA的终局,是一个模型通吃所有任务,还是专用模型+任务切换的混合架构? #一本书读懂人形机器人##微博新知#

发布于 江苏