Yann LeCun 终于把世界模型(World Model)的定义解释清楚了,并解释了自回归 LLM 为什么不行(注:可能有部分名词翻译不准确,原文http://t.cn/A6YKHN2Q):
「关于世界模型有很多混淆。这是我的定义:
给定:
观察 x(t)
世界状态的预估计 s(t)
行动建议 a(t)
潜变量建议 z(t)
世界模型计算:
表征:h(t) = Enc(x(t))
预测:s(t+1) = Pred( h(t), s(t), z(t), a(t) )
解释
Enc()是一个编码器(一个可训练的确定性函数,例如神经网络)
Pred()是一个隐式状态预测器(也是一个可训练的确定性函数)。
潜变量 z(t) 代表未知信息,可以帮助我们准确预测发生的情况。它必须从一个分布中采样,或在一个集合上变化。它是可信预测集合(或分布)的参数。
关键是通过观察三元组(x(t),a(t),x(t+1))来训练整个模型,同时防止编码器陷入忽略输入的简单解决方案。
自回归生成模型(如LLMs)是一种简化的特殊情况,其中
1.编码器是恒等函数:h(t) = x(t)
2.状态是过去输入的窗口
3.没有行动变量a(t)
4. x(t) 是离散的
5. 预测器计算出x(t+1)的结果分布,并使用潜变量z(t)从该分布中选择一个值。
方程简化为:
s(t) = [x(t),x(t-1),...x(t-k)]
x(t+1) = Pred( s(t), z(t), a(t) )
在这种情况下不存在崩溃问题。」
Yann LeCun 还回复了很多提问,都很好,有兴趣可以自己去看,我选取一个解释:
「x(t):桌子上放着一个玻璃杯
a(t):一只手将玻璃杯推动 10 厘米
x(t+1):玻璃杯现在距离原来的位置 10 厘米。
JEPA 与 Sora 的区别:
Sora 是一个生成模型,因此它必须在像素级生成场景的每一个细节。
我所描述的这种 JEPA 世界模型只需要在抽象的表征空间中进行预测,在这个空间中,许多无关的细节(玻璃杯的形状和材料、桌子的质地、周围环境的各个方面等)都已被剔除。」
