Yann LeCun 终于把世界模型（World Model）的定义解释清楚了，并解释了自回归 LLM 为什么不行（注：可能有部分名词翻译不准确，原文http://t.cn/A6YKHN2Q）：「关于世界模型有很多混淆。这是我的定义：给定：观察 x(t)世界状态的预估计 s(t)行动建议 a(t)潜变量建议 z(t)世界模型计算：表征

Yann LeCun 终于把世界模型（World Model）的定义解释清楚了，并解释了自回归 LLM 为什么不行（注：可能有部分名词翻译不准确，原文http://t.cn/A6YKHN2Q）：

「关于世界模型有很多混淆。这是我的定义：

给定：
观察 x(t)
世界状态的预估计 s(t)
行动建议 a(t)
潜变量建议 z(t)

世界模型计算：
表征：h(t) = Enc(x(t))
预测：s(t+1) = Pred( h(t), s(t), z(t), a(t) )
解释
Enc()是一个编码器（一个可训练的确定性函数，例如神经网络）
Pred()是一个隐式状态预测器（也是一个可训练的确定性函数）。
潜变量 z(t) 代表未知信息，可以帮助我们准确预测发生的情况。它必须从一个分布中采样，或在一个集合上变化。它是可信预测集合（或分布）的参数。

关键是通过观察三元组（x(t),a(t),x(t+1)）来训练整个模型，同时防止编码器陷入忽略输入的简单解决方案。

自回归生成模型（如LLMs）是一种简化的特殊情况，其中
1.编码器是恒等函数：h(t) = x(t)
2.状态是过去输入的窗口
3.没有行动变量a(t)
4. x(t) 是离散的
5. 预测器计算出x(t+1)的结果分布，并使用潜变量z(t)从该分布中选择一个值。
方程简化为：
s(t) = [x(t),x(t-1),...x(t-k)]
x(t+1) = Pred( s(t), z(t), a(t) )
在这种情况下不存在崩溃问题。」

Yann LeCun 还回复了很多提问，都很好，有兴趣可以自己去看，我选取一个解释：

「x(t)：桌子上放着一个玻璃杯
a(t)：一只手将玻璃杯推动 10 厘米
x(t+1)：玻璃杯现在距离原来的位置 10 厘米。

JEPA 与 Sora 的区别：
Sora 是一个生成模型，因此它必须在像素级生成场景的每一个细节。
我所描述的这种 JEPA 世界模型只需要在抽象的表征空间中进行预测，在这个空间中，许多无关的细节（玻璃杯的形状和材料、桌子的质地、周围环境的各个方面等）都已被剔除。」

发布于美国