DreamDojo通用机器人世界模型发布

[RO]《DreamDojo: A Generalist Robot World Model from Large-Scale Human Videos》S Gao, W Liang, K Zheng, A Malik... [NVIDIA] (2026)

机器人学习的终局，也许不在于喂给它多少行代码，而在于让它看懂这个真实、复杂且充满变数的世界。

长期以来，机器人领域一直面临数据匮乏的困境：昂贵的机械臂采集、有限的实验场景，让机器人往往只能在实验室的温室里徘徊。本文发布的 DreamDojo，试图打破这一僵局。它不仅是一个模型，更是一个让机器人通过“观看”人类视频来学习物理规律和交互逻辑的通用世界模型。

以下是关于 DreamDojo 的深度解析，以及它如何预演通用机器人的未来。

1. 数据的量级跃迁：从实验室到人间烟火

过去的世界模型大多依赖数千小时的机器人操作数据，但 DreamDojo 直接开辟了“人类视频”这一无穷矿脉。研究团队构建了目前规模最大的具身人类视频数据集 DreamDojo-HV，包含 4.4 万小时的自我中心视角视频。

这个数据集的意义在于其惊人的多样性：它涵盖了超过 6000 种技能和 100 多万个真实场景，规模比之前的机器人数据集高出几个数量级。人类在厨房烹饪、在工厂组装、在办公室穿梭，这些日常烟火成为了机器人学习物理交互、物体恒常性和因果关系的最好老师。

2. 跨越形态的桥梁：连续潜在动作空间

人类视频虽然丰富，但最大的痛点是缺乏机器人的动作标签。机器人无法直接知道人类在视频中用了多大的力、转了多少度。

DreamDojo 的核心创新在于引入了连续潜在动作作为统一代理。通过自监督学习，模型能从视频像素中提取出语义化的动作特征。这种方法巧妙地绕过了“形态差异”的难题：无论是一只人手还是一个机械爪，其在空间中产生的物理影响是可以被抽象成统一的潜在表示的。这让机器人能够从人类的动作中汲取精髓，实现跨物种的知识迁移。

3. 架构的精进：让预测更精准，让动作更顺滑

为了实现精确的动作控制，DreamDojo 在架构上做了两项关键改进。首先是将绝对姿态转化为相对动作，这显著降低了建模复杂度，增强了对连续动作的泛化能力。其次是引入了块状动作注入机制，确保模型在预测未来帧时，严格遵循物理世界的因果律。

此外，团队还提出了时间一致性损失函数。这不仅加快了学习效率，更重要的是它解决了生成视频中常见的“物体闪烁”或“形态崩坏”问题，让机器人模拟出的未来世界更加真实、稳定。

4. 实时交互的艺术：从离线预测到实时预演

传统的世界模型往往运行缓慢，难以支持实时决策。DreamDojo 通过一套精妙的蒸馏管线，将复杂的扩散模型转化为实时自回归模型，推理速度提升至 10.81 FPS。

这意味着机器人可以像人类一样，在执行动作的同时，在“脑海”中实时预演未来的可能性。这种实时性解锁了诸多下游应用：比如通过 VR 设备进行实时远程操控，或者让机器人在复杂任务中进行在线规划，通过对比多个预演方案，选出成功率最高的那一个。

5. 现实意义：数字孪生驱动的策略评估

DreamDojo 最直接的价值在于它成为了一个高精度的“模拟器”。实验证明，在 DreamDojo 中进行的策略评估结果，与真实世界的成功率表现出极高的线性相关性。

这意味着开发者不再需要耗费数周时间在实验室反复测试，而是可以先在 DreamDojo 模拟出的“平行世界”里筛选出最优算法。这种“在脑海中试错，在现实中执行”的模式，将极大加速通用机器人进化的进程。

6. 思考与启示：通用机器人的捷径

DreamDojo 的成功证明了一个深刻的道理：通往通用机器人的捷径，可能就是让它们在人类的日常生活中完成“预演”。当机器人看过了数万小时的人类交互，它学到的不仅仅是抓取或放置，而是一套关于物理世界的普适常识。

虽然模型在处理极端快速或罕见动作时仍有提升空间，但它已经为我们展示了一个清晰的未来：一个能够理解万物、预见未来的机器人时代，正在从像素的演化中走来。

arxiv.org/abs/2602.06949

发布于北京