[CV]《Advancing Open-source World Models》R T Z Gao, Q Wang, Y Zeng, J Zhu... [Robbyant Team] (2026)
视频生成正在经历一场从“造梦”到“模拟”的范式转移。长期以来,Sora等模型虽然能生成惊艳的视觉片段,但本质上仍是基于统计关联的“造梦者”,缺乏对物理规律、因果关系和物体持久性的深刻理解。
今日开源的 LingBot-World 试图打破这一僵局。它不仅是一个视频生成模型,更是一个可交互、高保真、具备长效记忆的开源世界模型。
以下是关于 LingBot-World 的深度解析与思考:
从像素堆砌到物理模拟。
真正的智能不应只是像素的平滑过渡,而应是对物理世界的逻辑重构。LingBot-World 的核心使命是将视频生成提升为“世界模拟”。它支持实时交互,延迟低于1秒,且能保持分钟级的时空一致性。这意味着我们正在进入一个“可玩视频”的新时代,视频不再是死板的播放流,而是可以被实时操纵的动态环境。
数据引擎:解决“因果缺失”的良药。
高质量交互数据的匮乏是世界模型的最大瓶颈。LingBot-World 构建了一个三位一体的数据引擎:真实世界视频提供视觉质感,游戏数据提供精准的动作对齐,而基于虚幻引擎(UE)的合成数据则提供了完美的几何先验。通过层次化标注策略,模型成功实现了动作控制与场景生成的解耦,学会了“如果我这样做,世界会如何改变”的因果逻辑。
三阶段进化:从通用先验到实时交互。
模型的炼成经历了三个关键阶段:首先是预训练,建立强大的通用视频先验;其次是中阶训练,引入混合专家架构(MoE)和长序列训练,注入世界知识并激活长效记忆;最后是后训练,通过因果架构适配和几步蒸馏技术,将沉重的扩散模型转化为轻量级的实时自回归系统。
涌现的空间记忆能力。
LingBot-World 最令人惊叹的特性之一是其“涌现”的空间记忆。在没有显式 3D 表征的情况下,模型能够记住已经离开视线长达一分钟的物体。当你转头回来,那座雕像依然矗立在原处。这种能力表明,模型已经在参数空间中隐式地构建了稳定的物理世界模型,而不仅仅是记忆像素。
打破闭源鸿沟的开源力量。
目前顶尖的世界模型大多被锁在闭源机构的保险柜里。LingBot-World 选择全栈开源,包括代码、权重和推理框架。这不仅是技术的释放,更是对开发者社区的赋能。它降低了具身智能、游戏开发和影视创作的准入门槛,让“人人都能构建无限虚拟世界”成为可能。
从文字到世界的语义操控。
通过“可提示世界事件”功能,用户可以用自然语言直接干预模拟进程。无论是改变季节、切换画风,还是在场景中注入特定物体,模型都能确保这些变化在物理和时间上保持连贯。这种深度语义操控能力,为自动驾驶和机器人学习提供了近乎无限的仿真测试环境。
局限与未来。
尽管迈出了重要一步,LingBot-World 仍面临挑战:内存稳定性的维持、精细交互(如拿起特定杯子)的准确度,以及多智能体协作的模拟。未来的路径清晰可见:引入更显式的存储模块,进一步扩展动作空间,并向无限时长的稳定模拟进化。
世界模型不是终点,而是通往通用人工智能(AGI)的物理基石。当 AI 能够真正理解并模拟物理世界的运行逻辑时,它才拥有了与现实世界深度交互的入场券。
项目主页:technology.robbyant.com/lingbot-world
代码仓库:github.com/robbyant/lingbot-world
论文地址:arxiv.org/abs/2601.20540
