[RO]《RISE: Self-Improving Robot Policy with Compositional World Model》J Yang, K Lin, J Li, W Zhang... [The Chinese University of Hong Kong & Kinetix AI] (2026)
现在的机器人大脑VLA模型虽然能听懂指令,但在面对精细、动态的操作时依然显得笨拙。一个微小的动作偏差,往往会导致整个任务的溃败。
传统的强化学习虽然能让机器人通过试错变得聪明,但在物理世界里,这种试错的代价太高了:硬件会损耗,速度太慢,而且每次失败都需要人工去重置环境。
为了打破这个僵局,RISE框架应运而生。它的核心逻辑非常迷人:既然现实世界太昂贵,那就让机器人在想象中自我进化。
RISE的核心是一个组合式世界模型。它把模拟问题拆解为两个维度:动力学预测和价值评估。
动力学模型负责演化未来。基于高效的视频扩散模型,它能根据机器人提出的动作序列,快速生成多视角的未来画面。这意味着机器人可以在动手之前,先在脑海里预演一遍动作的后果。
价值模型则负责评判好坏。它不仅能感知任务的进度,还能敏锐地捕捉到那些细微的失败信号。这种组合设计让状态预测和价值判断各司其职,保证了学习信号的准确和稳定。
RISE的学习过程就像是一个闭环的自我修炼。机器人先通过少量的现实经验热身,建立基本的物理感。随后,它进入想象空间,不断生成虚拟的尝试,评估优劣,并根据这些想象出来的反馈更新自己的策略。
这种在想象中进化的方式,彻底摆脱了物理世界的串行限制。
实验结果令人惊叹。在三项极具挑战性的真实任务中,RISE展现出了远超前人的鲁棒性:动态砖块分拣成功率提升了35%,背包打包提升了45%,纸箱封口提升了35%。
这些任务不仅要求高精度的双臂协同,还需要处理柔性物体和动态环境。RISE证明了,通过高质量的内部模拟,机器人可以获得超越专家演示的适应能力。
一个深刻的启示是:具身智能的未来,或许不在于无休止地堆砌现实数据,而在于构建一个足够真实的内部世界。当机器人学会了在想象中试错,它在现实中就会变得无懈可击。
从物理成本到计算成本的转移,是通往通用机器人时代的必经之路。RISE不仅是一个框架,更是对机器人学习范式的一次重塑。
论文链接:arxiv.org/abs/2602.11075
