机器人新动作!小米正式开源 Xiaomi-Robotics-0 具身模型的真机后训练(Post-training)全流程。
基于预训练基座,小米仅用20小时的任务数据进行真机后训练,就让Xiaomi-Robotics-0掌握了“耳机收纳进盒”这类高难度、亚毫米级精度的操作,且动作流畅连续。耳机收纳演示视频我放在下面了,准确度和流畅度惊人……
为了实现动作的无缝衔接,小米采用异步推理+动作前缀(Action Prefixing)方案,同时用三项技术解决模型“过度依赖动作惯性、忽视视觉反馈”的行业通病:
自适应加权机制(Adaptive Loss Re-weighting):根据预测动作与真实轨迹的偏差,动态调整Loss权重,让模型在关键误差处重点优化;
Λ型掩码(Λ-Shape Attention Mask):通过特殊注意力机制,让模型在参考前序动作的同时,保持对当前视觉信号的专注,避免“路径依赖”;
前缀动作随机遮蔽(Random Masking):训练中随机Dropout部分动作前缀,倒逼模型依赖视觉与传感器信号,而非盲目跟从动作惯性。
Xiaomi-Robotics-0 模型发布首月,就在 HuggingFace 全球VLA模型下载榜中位列第六,这一次开源真机后训练流程,是该模型从实验室走向落地的关键一步。
发布于 重庆
