高飞 26-04-05 09:41
微博认证:至顶科技创始人 AI博主

#模型时代# 杨立昆圆桌对话,谈“LLM未来做不到的,和JEPA目前做不到的”

这是今年2月的一个对话,印度新德里AI Impact Summit期间,杨立昆(Yann LeCun)与Aitomatic创始人Christopher Nguyen的对话。我又拿出来重新写,有两个原因。一个是主持人Nguyen很牛,他是前谷歌首任工程总监,目前主要在工业AI领域活动。对于工业AI的理解,他曾经给我的启发几乎是最大的。

其次,杨立昆在这个对话,固然继续批评了LLM,但是也谈到了他的技术路线,JEPA的局限性,我印象中这也不多见,可能是因为是两个专家的对话?杨立昆现在在做啥,大家应该大概知道。他离开Meta,创办了AMI Labs(Advanced Machine Intelligence)。2026年3月,AMI Labs宣布完成10.3亿美元种子轮融资,估值35亿美元,是欧洲历史上最大的种子轮之一。投资方包括Bezos Expeditions、NVIDIA、Samsung、Temasek和Toyota Ventures。团队核心成员包括CEO Alex LeBrun(前Nabla联合创始人)、首席科学官Saining Xie、首席研究与创新官Pascale Fung、世界模型VP Michael Rabbat。

对了,很有意思的一点。他说之所以离开Meta,一个别人可能想不到的原因是JEPA主要用于工业(物体和物体),而扎克伯格的产品,都是社交的(人和人),关系很小。

一、LLM到底缺了什么

1、世界模型是当前AI缺失的核心拼图

杨立昆把过去15年AI的两次革命概括得干脆:第一次是深度学习,第二次是LLM。LLM的本质是什么?取一段输入序列,训练系统在输出端复现这段序列。因为架构是严格因果的,系统只能看到当前符号左边的内容,所以隐含地变成了next token prediction。

这对文本有效,因为文本是离散的,词表是有限的,通常10万个token左右。系统可以对这10万种可能的输出各打一个分数,本质上就是一个概率分布。

但世界不是文本。

2、视频预测的根本失败揭示了生成式方法的边界

杨立昆做了15年以上的尝试,想用自监督学习来预测视频中的下一帧。结论是做不到。

他在现场举了一个例子:在会场拍一段视频,转动相机,然后停下来,让系统预测下一帧。系统能预测出"这是一个房间,有桌子,有人坐着"这些粗略的信息。但每个人长什么样、哪些座位有人、地毯的纹理、水晶灯的反光,完全无法预测。

"Most of what we observe in the world is completely unpredictable."——我们观察到的世界中,大部分细节在本质上是不可预测的。

当你强迫系统做出这些预测时,唯一的办法是给它额外信息,术语叫latent variable,但这个额外信息本身就包含了预测目标的大部分内容,等于没有学到任何东西。

3、从热力学到分子运动:物理学早就解决了这个问题

还有一个更深层的问题:要让生成模型工作,你必须先把信号离散化,变成一串token。文本天然是离散的,所以tokenization没有代价。但视频不是,硬把连续信号切成离散token,效果差得多。

杨立昆用一个物理类比来说明这一点。把这个房间的门窗全关上,给空气加热,你可以用PV=NRT精确预测温度和压力的关系。但空气分子彼此碰撞产生温度和压力的具体细节,根本无法模拟,分子数量太大了。

物理学家对这种不可预测的细节有一个精确的术语:熵。模拟空气绕过机翼的流动时,没有人去模拟每个空气分子,而是在飞机周围的每个小立方体里,用速度、密度和温度来表征空气,然后求解Navier-Stokes方程。

这就是抽象。人类全部的科学体系都建立在这种分层抽象之上:量子场太大无法模拟,我们发明了粒子;粒子太多无法模拟,我们发明了原子、分子;在生命科学中,是蛋白质、细胞器、细胞、有机体、生态系统、社会。每一层都是为了在忽略下层细节的前提下做出预测,每一层也定义了一个科学学科。

二、JEPA:在抽象空间里做预测

1、不重建信号,而是找到可预测的抽象表征

JEPA的核心思想用一句话就能说清楚:不要试图重建输入信号的每一个细节,而是学习一个抽象表征,在这个表征空间里做预测。

杨立昆用木星的例子让这个概念变得非常具体。把人类收集的关于木星的所有数据全部给你,你能做什么?不多。除非有人问你:10年后木星在哪里?做这个预测,你只需要6个数字:三个位置坐标,三个速度分量。关于木星的其他所有细节,比如表面天气、大气湍流,对轨道预测毫无用处。不是说不需要建模,而是木星天气本身就极端复杂、充满混沌,属于另一层抽象的问题。

2、从世界模型到智能体:action-conditioned prediction

当这个系统不只是做预测,而是做"以动作为条件的预测"时,它就变成了一个世界模型:在时刻t的世界状态下,想象执行某个动作,预测时刻t+1的世界状态。有了这个,你就可以做规划,搜索一组最优动作序列来完成某个目标,用某个目标函数在预测状态上衡量效果。

杨立昆直接说,现在所有人都在谈agentic AI,但没有人知道怎么让它可靠工作。"Frankly I have no idea how to build them with LLMs because LLMs have no ability to predict the consequences of their actions."——用LLM根本做不了,因为LLM没有能力预测自身行为的后果。你需要一个世界模型。

3、15年实证积累:联合嵌入每次都赢

在计算机视觉领域,自监督表征学习有两条路线。第一条是重建型:取一张图,做某种破坏(遮挡、模糊、变色),训练神经网络从破坏版本恢复原始图像。在NLP领域,这就是BERT的做法。在视觉领域,这叫masked autoencoder。第二条是联合嵌入型:取原图和破坏版本,各自通过编码器,训练两个表征之间可以相互预测。

多年实验的结论是:联合嵌入方法在表征质量上每次都赢过重建方法。不管是VAE、VQVAE还是sparse autoencoder,没有一种重建型方法的效果能接近联合嵌入。

杨立昆说他从1986年就在做去噪自编码器,比公认的历史还早,在1987年的博士论文里就有这个工作。Hinton也对重建方法的效果感到失望。40年的经验给他一个结论:对自然信号来说,重建就是错误的方向。

三、崩溃问题:从对比学习到信息最大化

1、1993年的签名验证:崩溃问题的起源

杨立昆讲了一个追溯到1993年的故事。当时他在Bell Labs,AT&T的子公司NCR(做ATM和收银机的)找上门来:能不能把一个人的签名精华压缩到80字节?这样就能存在信用卡磁条上,用来验证签名真伪。

杨立昆的方案是用当时叫Siamese neural net的孪生神经网络:两个签名通过同一个网络,训练输出表征尽量接近。但如果只做这一步,系统会直接忽略输入,输出一个常量,这就是collapse,表征崩溃。

当时的解决办法是对比学习:不仅让同一个人的签名表征靠近,还让不同人的签名表征推开。这个方法能用,但扩展性不好,学到的表征维度偏低。

2、非对比方法的突破:从Barlow Twins到VICReg

大约5年前,杨立昆的博士后以及相关工作带来了突破:不用对比方法,而是通过最大化编码器输出的信息量来防止崩溃。逻辑是这样的:如果你强迫编码器的输出必须携带足够丰富的信息,它就不可能偷懒去忽略输入,同时相似对象的表征仍然会彼此接近。

这个思路产生了Barlow Twins,以及它的变体VICReg,效果极好。Meta内部另一组人在做的DINOv1/v2/v3系列,走的是蒸馏路线,也就是distillation,虽然理论理解还不完全,但实际效果可能是目前最好的纯自监督图像编码器。

杨立昆和前博士后Randall Balestriero,现在是Brown大学助理教授,最新的合作工作是强制输出表征在一个批次的样本上服从各向同性高斯分布,方法相对简洁。

3、理论根基仍不完备,但实证方向明确

杨立昆坦承,崩溃防止机制的理论基础还没有完全搞清楚。目前有三条路径可以防止崩溃:对比方法、非对比信息最大化方法、蒸馏方法。蒸馏方法为什么有效,还没有完整的理论解释。但实证方向非常明确:联合嵌入是未来。

四、为什么离开Meta创办AMI Labs

1、LLM吸走了所有的氧气

杨立昆对离开Meta的原因说得毫不绕弯。FAIR至少到去年为止都是做研究的好地方,但过去一年Meta全面转向追赶LLM竞赛。更有雄心、更长期、挑战主流范式的项目被边缘化了。而杨立昆自己八年前就不再担任FAIR总监,回到了纯研究者身份,对实验室的走向已经没有管理权。

"When you have a whole company that is betting hundreds of billions on a particular paradigm and have this crazy chief AI scientist who claims everywhere we're never going to get to human level AI by just getting ups, you make a few non-friends."——当一整个公司在某个范式上押注数千亿,而首席AI科学家到处说靠堆规模永远到不了人类级AI,你会招来不少敌人。

他说Zuckerberg和CTO Drew Bosworth都支持他在Meta内部做的AMI项目,但政治上极难推动。Nguyen在现场说这会是Zuck的一个重大失误,杨立昆没有否认,只是说"we'll see"。

2、应用空间远超Meta的业务范围

JEPA世界模型的应用方向是工业过程控制、机器人、医疗保健、穿戴设备。Meta的业务完全聚焦在人与人的连接上,对这些领域没有兴趣。应用空间如此广阔,留在Meta内部没有意义。

再加上融资条件成熟,杨立昆说他"基本上打个响指就能融到5亿美元",实际融到的比这还多。时机到了。

五、跨尺度建模与经济学应用

1、层级化JEPA:不同粒度的抽象对应不同时间尺度的预测

一位来自剑桥的研究者提了一个问题:他们用Barlow Twins和JEPA训练卫星图像模型,效果很好,但这个"太空视角"的模型和其他在更小尺度上训练的JEPA模型之间没有连接。怎么把不同尺度的模型连起来?

杨立昆的回答是:终极方案是层级化JEPA。低层表征做短期的细节预测,高层表征做长期的大尺度预测。高层的定义就是:能在更大的时间和空间尺度上做出预测。这和物理学中的重整化群理论是同一个思想,卷积网络中把细节信息逐层压缩的pooling操作也是同样的道理。

不同物理现象之间有大量共性,这使得某种通用模型成为可能:如果你对流体动力学有好的直觉理解,你就能用它来理解喷气发动机、帆船的帆面、飞机的机翼。飞行员能感知机翼何时会失速,帆船手调帆全靠攻角和湍流的直觉。这些都不需要模拟单个分子,不需要求解Navier-Stokes方程,但在高层抽象上有真实的理解。

他补了一句:你的猫也有这种能力。猫对自身动力学的理解超过任何方程能写出的东西。你看猫在家具上弹跳的轨迹,会觉得那不可能,但它就是做到了。

2、经济建模:比分子碰撞更难的问题

有人问用世界模型做经济建模的可能性。杨立昆说,跨尺度建模是物理学、经济学、社会科学和工程学共同面对的核心难题。从微观到介观、再到宏观的过渡极端困难。

玻尔兹曼方程如何从分子碰撞动力学中推导出来,这在理论层面直到最近("last year practically")才开始被理解。从Boltzmann方程到Navier-Stokes方程的过渡,也是一个类似的抽象层级跳跃。

但经济系统比分子系统更难建模。分子遵循牛顿定律互相碰撞,而经济系统中的"分子"是人,在有限信息下做半理性决策、各自优化局部目标函数的大量个体智能体。Nguyen开玩笑说"semi-rational"已经很客气了。

杨立昆认为,要建模经济体系中从微观到宏观的涌现行为,数据驱动的方法、像JEPA这样能找到恰当抽象的架构,是唯一可行的路径。传统宏观经济学已经在做极端抽象,但缺少从微观到宏观的连接。

他还提到一个现实限制:金融数据的信噪比极低。Nguyen引用了一个数字,他们的经验是2%。

3、Neural Concept:一个已经在工作的例子

杨立昆提到了一家从EPFL孵化出来的瑞士公司Neural Concept,它训练神经网络直接从三维固体形状和气流条件预测升力和阻力。训练数据通过求解Navier-Stokes方程的计算流体动力学生成。训练好的网络是一个可微分模型,可以对形状求梯度,直接用梯度下降来优化三维形状,使其达到目标气动特性。这种"微观模拟→训练宏观替代模型→用替代模型做优化"的模式,在材料科学、宇宙学模拟等领域已经有大量类似案例。

六、JEPA还没有解决的三个问题

杨立昆在这场对谈中没有回避JEPA的局限。把他的坦承拼在一起,能看到三个递进的未解难题。

1、崩溃问题:有工程解法,没有完整理论

JEPA训练encoder把输入压缩成一组数字,也就是表征。训练信号是:同一个东西的两个变体进去,出来的两组数字要接近。但网络是一个优化机器,它会找捷径。最省力的捷径是:不管什么输入,都吐出同一组数字。两组输出永远一样,loss完美为零,但encoder什么都没学到。所有输入的表征坍缩到同一个点上,这就是collapse,崩溃。

目前有三条路径堵住这条捷径。对比学习:同时要求不同输入的输出必须明显不一样,这样常量输出就行不通了。信息最大化(Barlow Twins、VICReg):要求输出向量在一批样本上每个维度都有足够的方差、维度之间不能高度相关,常量输出方差为零,直接违规。蒸馏(DINO系列):用一个缓慢更新的"教师网络"指导"学生网络",实际效果可能是目前最好的,但杨立昆原话说"we don't fully understand but they kind of work really well"。

三条路都能防崩溃,但没有统一的理论解释它们为什么有效。一个你说不清楚为什么管用的方法,换一个新场景可能就失效,而且你不知道该怎么修。杨立昆和Randall Balestriero最新的工作是尝试用一个统一的数学框架来解释这些方法,强制输出服从各向同性高斯分布,但这仍然是未完成的研究。

状态:工程上已解决,理论上未完成。

2、从图像到视频:刚刚开始工作

图像上的JEPA已经赢了15年。但图像是一个静止的瞬间,训练任务简单:同一张图的两个变体(裁剪、变色)是你人为制造的,差异完全可控。网络只需要学会忽略这些人为干扰,抓住不变的本质。

视频有时间。你要让网络看前几帧,预测后面几帧的表征。前后帧之间的差异不再是你制造的,而是真实世界产生的。一个人可能转头,一辆车可能突然出现,灯光可能变化。有些变化可预测(走路的人下一秒还在走),有些完全随机(突然有人打喷嚏)。网络必须自己学会区分哪些变化值得建模、哪些是噪声应该忽略。图像阶段不需要做这个区分。

杨立昆说视频JEPA已经有了"extremely good results",但用词是"recent work",是刚出来的成果,远没有像图像那样经过15年的反复验证。

状态:方向已验证,鲁棒性未经考验。

3、层级化JEPA:知道终点在哪,路还没修好

这是三个问题中最深的一个。现在每个JEPA模型在自己的领域和尺度上工作,但它们是孤岛。剑桥那个卫星模型就是活生生的例子:从太空视角训练出来的表征("这是城市,那是森林")和地面视角训练出来的表征("这是一棵橡树")活在两个完全独立的空间里,互相不知道对方存在。

杨立昆想要的终极方案是层级化JEPA:低层表征管细节和短期预测,高层表征管全局和长期预测,上下贯通。他用物理学的重整化群理论做类比,用飞行员对失速的直觉、帆船手对攻角的感觉来说明"高层抽象上的真实理解"长什么样。

但他举的所有例子都是单一领域内的直觉。飞行员懂失速不代表他懂蛋白质折叠。人类科学的分层抽象体系是一代代科学家手动发明的,不是从数据里自动长出来的。让一个系统自己学出"在这个问题上用粗粒度思考,在那个问题上切到细粒度",目前没有人知道怎么做。杨立昆用了"ultimately"这个词来描述他的方案,ultimately就是在说:我知道应该是什么样子,但还没有做出来。

状态:愿景清晰,实现路径未知。

三个问题的难度是递进的。第一个已经有了能用的解法,差的是理论。第二个方向对了,差的是时间和验证。第三个连解法的轮廓都还没有,只有一个正确的目标。这也大致对应了AMI Labs拿到10亿美元后的研究优先级:先把视频世界模型做扎实,同时在理论上补齐崩溃问题的理解,最终攻克层级化。

总结

这场对谈的核心论点用一句话概括:当前AI的根本缺陷在于试图预测信号的每一个细节,而世界的大部分细节是不可预测的。JEPA提供了一条不同的路径:在学到的抽象表征空间中做预测,忽略那些本质上不可预测的细节,保留那些对任务真正有用的信息。

杨立昆在这个方向上积累了40年。从1986年的去噪自编码器到1993年的孪生网络,从Barlow Twins到VICReg,从静态图像的联合嵌入到视频世界模型,这条线索一直在延伸。他现在拿到了10亿美元的资金、一支包含多位Meta FAIR前研究者的核心团队、以及工业控制、机器人、医疗等明确的应用场景。AMI Labs的CEO Alex LeBrun说过,第一个可用的产品大约需要一年时间。

这是一个用10亿美元赌一个范式的故事。杨立昆赌的是:真正的智能不是从语言开始的。

核心归纳

Q1: 为什么LLM在本质上无法达到人类级智能?
LLM的训练目标是预测下一个token,这对离散的文本有效,但对连续的、充满不可预测细节的真实世界数据(如视频)根本行不通。当你强迫系统预测每一个像素,大部分预测目标的信息必须通过额外变量注入,系统实际上什么都没学到。人类和动物从来不试图重建感知到的每一个细节,而是学习可预测的抽象表征。

Q2: JEPA如何解决这个问题?
JEPA训练系统同时学习两件事:对输入信号建立抽象表征,以及在这个抽象表征空间中做预测。系统自己决定哪些信息值得保留(可预测的部分)、哪些信息应该忽略(不可预测的熵)。当这种预测以动作为条件时,系统就变成了世界模型,可以规划行动序列来达成目标。15年的实证表明,这种联合嵌入方法在图像表征质量上持续优于所有重建型方法。

Q3: AMI Labs的商业逻辑是什么?
JEPA世界模型的应用场景(工业过程控制、机器人、医疗保健、穿戴设备)远超Meta的业务范围。杨立昆在Meta内部推动这些研究面临政治阻力,LLM方向占据了几乎全部的资源和注意力。AMI Labs在2026年3月完成10.3亿美元融资,团队横跨巴黎、纽约、蒙特利尔和新加坡四地,初期聚焦基础研究,计划开源论文和代码。CEO Alex LeBrun预计第一个可用产品约需一年。

发布于 韩国