Latent Particle World Models研究

[LG]《Latent Particle World Models: Self-supervised Object-centric Stochastic Dynamics Modeling》T Daniel, C Qi, D Haramati, A Zadeh… [CMU & UT Austin & Brown University] (2026)

在视频预测领域，如何让模型真正"理解"场景中的物体而非仅仅处理像素块，是一个悬而未决的难题。过去的方法要么用固定网格的图像块建模，丢失了物体语义；要么依赖粒子追踪，在随机动态场景中频繁失效，本质原因是缺乏一种既能分解物体、又能捕捉不确定性的统一表示。

本文的核心洞见是：把"场景中发生了什么变化"重新看作每个物体粒子独立持有的潜在动作变量。由此，为每个粒子单独建模一个连续潜在行动分布这一关键操作，使模型得以同时解耦多物体的随机交互——无需显式追踪，无需多阶段训练，直接端到端从视频学习。

这项工作真正留下的遗产是：证明了紧凑的物体中心表示在视频预测质量上可媲美参数量大数倍的扩散模型。它为后来者打开的新门是：将潜在行动与物体表示联合训练后直接迁移至模仿学习，无需任务专属标注。但尚未跨过的门槛是：模型仍依赖摄像机运动小、场景相对稳定的数据，尚不能推广至通用野外视频。

arxiv.org/abs/2603.04553

#机器学习# #人工智能# #论文# #AI创造营#

发布于北京