小米开源机器人训练流程

机器人新动作！小米正式开源 Xiaomi-Robotics-0 具身模型的真机后训练（Post-training）全流程。

基于预训练基座，小米仅用20小时的任务数据进行真机后训练，就让Xiaomi-Robotics-0掌握了“耳机收纳进盒”这类高难度、亚毫米级精度的操作，且动作流畅连续。耳机收纳演示视频我放在下面了，准确度和流畅度惊人……

为了实现动作的无缝衔接，小米采用异步推理+动作前缀（Action Prefixing）方案，同时用三项技术解决模型“过度依赖动作惯性、忽视视觉反馈”的行业通病：

自适应加权机制（Adaptive Loss Re-weighting）：根据预测动作与真实轨迹的偏差，动态调整Loss权重，让模型在关键误差处重点优化；

Λ型掩码（Λ-Shape Attention Mask）：通过特殊注意力机制，让模型在参考前序动作的同时，保持对当前视觉信号的专注，避免“路径依赖”；

前缀动作随机遮蔽（Random Masking）：训练中随机Dropout部分动作前缀，倒逼模型依赖视觉与传感器信号，而非盲目跟从动作惯性。

Xiaomi-Robotics-0 模型发布首月，就在 HuggingFace 全球VLA模型下载榜中位列第六，这一次开源真机后训练流程，是该模型从实验室走向落地的关键一步。

发布于重庆