高飞 25-12-16 09:18
微博认证:至顶科技创始人 AI博主

#模型时代# Yann LeCun离开Meta创业:为什么LLM永远无法通向AGI,以及世界模型的真正路径,对AI感兴趣应该学“工程数学、物理学和学习学”

图灵奖得主、Meta AI首席科学家Yann LeCun(杨立昆)在和扎克伯格合作12年后离开Meta,创办了新公司AMI(Advanced Machine Intelligence)。这两天他的一些播客采访陆续上线。

我现在发的这一期是来自The Information Bottleneck播客,他与主持人Ravid Shwartz-Ziv、Allen Roush进行了一场深度对话。一共谈了1小时50分。

LeCun直言硅谷对LLM的执念是"complete bullshit",并详细阐述了他认为真正通向智能的路径——基于世界模型和抽象表征空间的预测系统。

LeCun花了大量篇幅解释为什么当前主流AI路线存在根本缺陷,为什么达到"狗级智能"比达到"人类智能"更难,以及为什么他在65岁选择重新创业。

他的很多观点大家可能都熟悉了,不过以前老爷子是只需要讲出道理,现在创业了,还要把道理变成产品,挑战这个新高度就非常有勇气了。然后,杨立昆离开Meta创业的状态,感觉很好,大家可以看图片。

一、LLM的根本局限:为什么规模化是死胡同

LeCun的核心论点很直接:LLM只能处理离散的、符号化的文本,无法处理真实世界中高维、连续、有噪声的数据。

1、数据量的对比揭示本质差异

训练一个顶级LLM需要约30万亿token,大约10^14字节。这听起来很多。但同样的数据量换算成视频,只有15000小时——相当于YouTube上30分钟的上传量,或者一个4岁孩子清醒时间累计看到的视觉信息总量。

"文本里有很多孤立的事实,冗余性很低,你需要巨大的网络来存储和复述这些事实。而视频数据虽然字节量更大,但冗余性更高,结构也更丰富。"

这个对比说明:文本数据本质上信息稀疏,而视觉数据包含了物理世界的结构性知识。用LLM学习世界,就像只通过听人描述来学游泳。

2、LLM不理解基础物理

LeCun举了一个他反复使用的例子:把物体放在桌上,推动桌子,物体会跟着动。这是9个月大婴儿就能理解的常识,但LLM并不真正"理解"这个物理规律——它只是被fine-tune到能给出正确答案。

"你可以训练它们给出正确答案,但那是复述,不是真正理解底层动力学。"

类似的还有"一个人不能同时出现在两个地方"这种我们甚至不会意识到自己学过的知识。婴儿通过物体恒常性(object permanence)来学习这些,而LLM没有任何机制来获取这类基于感知的知识。

3、视觉能力是外挂,不是核心

当前多模态模型的视觉能力实际上是单独训练的,然后接入LLM。"如果你试图用LLM架构直接学习图像或视频的良好表征,效果很差。"这说明LLM的核心架构根本不适合处理连续的高维信号。

二、世界模型:预测在抽象空间,而非像素空间

LeCun认为,真正的智能需要能预测行动后果并据此规划的系统。这就是世界模型(World Model)的核心理念。

1、不要在像素级别做预测

很多人(包括LeCun自己早年)尝试过用神经网络预测视频的下一帧。结果都不好。原因很简单:像素级预测是不可能的任务。

"你无法真正表示视频帧空间上的有用概率分布。"

即使是当前流行的视频生成模型(如Sora),也不能保证学到了准确的物理动力学模型。它们可能只是在生成"看起来对"的视频,但物理一致性无法保证。

2、JEPA架构:学习抽象表征

正确的做法是在表征空间而非像素空间做预测。这就是JEPA(Joint Embedding Predictive Architecture,联合嵌入预测架构)的核心思想。

具体来说:输入X和目标Y分别通过编码器得到各自的表征,然后训练一个预测器从X的表征预测Y的表征。关键在于,编码器会自动学习忽略那些"不可预测的细节"(包括噪声)。

"真正避开像素级预测问题的方法,就是根本不在像素级别做预测。"

3、物理学的启示:分层抽象

LeCun用CFD(计算流体力学)做类比。模拟飞机周围的气流时,没人会去模拟每个空气分子——那需要天文数字级的计算量。相反,我们用纳维-斯托克斯方程在宏观层面做近似。

科学的本质就是建立不同层次的抽象:粒子→原子→分子→细胞→器官→生物体→社会。每一层都忽略下层的大量细节,但能做出更长期、更可靠的预测。

"预测木星100年后的位置,你只需要6个数字:三个位置分量和三个速度分量。其他所有关于木星的信息都不相关。"

三、从对比学习到VICReg:防止表征坍缩的技术演进

JEPA面临一个核心挑战:如果同时训练编码器和预测器,系统会找到一个trivial解——输出常量表征,让预测任务变得无意义。这叫做表征坍缩(collapse)。

1、早期方案:对比学习

LeCun在1993年就遇到了这个问题。当时的解决方案是引入"负样本"——告诉系统哪些样本是不同的,强迫它们产生不同的表征。这就是孪生网络(Siamese Network)和对比学习的起源。

一个有趣的应用场景:有人问能不能把手写签名压缩到80字节以内,这样就能写入信用卡磁条做验证。LeCun团队用孪生网络做到了,但客户最终选择了让用户输入PIN码。

2、对比学习的局限

对比方法能用,但产生的表征维度很低——即使在ImageNet上训练,有效维度也很难超过200。"有点令人失望,但勉强能用。"

3、信息最大化的突破

大约五年前,LeCun的博士后Stéphane Deny提出了一个LeCun最初不看好的想法:直接最大化编码器输出的信息量。

LeCun不看好的原因是:信息量只有上界估计,没有下界。要最大化一个量,你要么能精确计算它,要么需要下界来"往上推"。信息论里只有上界。

但Barlow Twins方法居然work了。"我当时就想,哇,我们得把这个推进下去。"

4、VICReg和SigReg

随后LeCun团队开发了VICReg(方差-不变性-协方差正则化),比Barlow Twins更简单也更有效。最近还有SigReg,目标是让编码器输出的向量分布接近各向同性高斯分布。

"这个领域还会有很多进展,我认为这是训练能学习抽象表征的模型的正确技术方向。"

四、AMI的商业逻辑:为什么现在创业

1、研究型创业成为可能

以前做研究只能去大公司的研究院——贝尔实验室、IBM研究院、施乐PARC、微软研究院、Google Research、FAIR。这些地方之所以能做长期研究,是因为母公司在各自市场占据主导地位,有钱有闲。

现在不同了。投资者对AI的期望足够高,愿意投大钱给"前两年主要做研究"的创业公司。这在以前不可能。

2、坚持开放研究

"在我看来,如果你不发表研究成果,那就不能叫研究。因为你很容易自我欺骗。你觉得自己发明了切片面包,但如果不提交给社区检验,你可能只是在妄想。"

开放发表还有另一个好处:给研究员动力。如果你告诉他们"来这里工作,不能说你在做什么,也许5年后会影响某个产品"——没人会有干劲。但如果能发论文,他们就有即时反馈。

3、产品方向

AMI不只做研究,会做实际产品。"我们的目标是成为智能系统的主要供应商之一。"具体领域是那些LLM完全搞不定的:高维、连续、有噪声的数据处理。

五、AI安全:靠架构保证,而非fine-tuning

1、LLM的jailbreak问题

当前LLM的安全措施本质上是fine-tuning——教模型什么不该说。但总能找到绕过的prompt。"这就是为什么我说不应该用LLM。"

2、目标驱动架构的内在安全性

LeCun提倡的架构不同:系统有世界模型,能预测行动后果,然后通过优化来规划达成目标的行动序列。关键在于,优化过程同时受到约束条件(guardrails)的限制。

举例:家用机器人在切黄瓜,手里有大刀。你可以设一个底层约束:"如果手里有大刀且周围有人,不许挥舞手臂。"这个约束是优化问题的硬性条件,不是通过训练"希望"模型遵守的。

"它无法逃脱这个约束。这是架构保证的,不是fine-tuning。"

3、喷气发动机的类比

喷气发动机刚发明时肯定不安全——可能跑10分钟就爆炸。但通过工程迭代,现在双发飞机能安全飞17个小时跨越半个地球。AI安全也是同样的工程问题,不是什么根本性障碍。

六、硅谷的"LLM迷思"与中国的开源优势

1、群体性迷思

硅谷现在有一种"LLM-pilled"文化:大家都在做同样的事,因为太怕落后。

"如果你开始走不同的路,就冒着被甩开的风险。所以大家都在追赶别人,形成了群体效应和单一文化。"

DeepSeek出来时,硅谷震惊了——"原来其他地方的人也能有原创想法"。这暴露了某种优越感。

2、中国开源,美国闭源

讽刺的是,美国公司越来越闭源(OpenAI早就是,Google在跟进,可能连Meta也会),而中国模型反而是目前最好的开源选择。

"现在最好的开源系统是中国的。很多行业用户都在用,虽然用起来不适应。"

学术界尤其如此——做reasoning研究的几乎都在用中国模型。

3、逃离单一文化

LeCun的新公司选择在巴黎设总部(也有纽约办公室),部分原因就是要逃离硅谷的同质化思维。"我在招那些在硅谷公司里认为'这条路走不通,我想做JEPA和世界模型'的人。"

七、关于AGI的清醒认识

1、"通用智能"是个伪概念

"这个概念毫无意义。它实际上是想指代人类级别的智能。但人类智能是高度特化的。我们能处理现实世界、能理解其他人,但下棋很烂。"

我们觉得自己"通用",只是因为我们只能想象自己能想象的问题。还有大量问题是我们根本无法conceptualize的。

2、最难的是达到狗级智能

"一旦达到狗级智能,你就有了大部分核心组件。"

从灵长类到人类,差异主要是语言能力,而那只是大脑中很小的两块区域(Wernicke区和Broca区),进化历史不到一两百万年。LLM或许可以充当这个语言接口。真正难的是prefrontal cortex的功能——世界模型就在那里。

3、时间表

最乐观情况:如果未来两年在JEPA和世界模型上取得重大进展,5-10年内可能达到狗级或接近人类智能。

但更可能的情况是:会遇到某个我们现在没预见到的障碍,需要发明新的概念来突破。那可能需要20年甚至更久。

"这在AI历史上已经发生过至少6次了。每一代人都觉得当前的技术就是通向AGI的路径,每次都错了。"

八、给年轻人的建议:学有长保质期的东西

1、不要只学计算机科学

"这是一个计算机科学教授在劝你们不要学计算机科学。我有个可怕的confession:我本科学的是电气工程。"

原因是:CS变化太快,很多内容几年就过时了。

2、学什么
• 工程数学:微积分一二三、概率论、线性代数、优化理论、控制理论、信号处理。这些在EE和ME课程里学得更深。
• 物理学:核心问题是"我应该表征现实的哪些方面,才能建立预测模型"——这正是智能的本质。
• 学习如何学习:技术演进太快,关键是具备快速学习新东西的能力。这通过学习基础性知识来培养。

3、关于vibe coding

代码生成会变得极其便宜,很多代码可能只用一次就扔掉。但这不意味着不需要程序员——软件生成成本下降了几十年,计算机反而变得更有用了。

总结

LeCun的核心洞察可以总结为一句话:预测不应该发生在数据原始空间,而应该发生在学习到的抽象表征空间。

这不是一个增量式的改进建议,而是对当前主流路线的根本性挑战。LLM通过预测下一个token来学习,本质上是在符号空间做generative modeling。而真实世界是连续的、高维的、充满不可预测细节的。试图用离散符号来建模连续现实,就像用有理数来表示圆周率——永远只能是近似。

世界模型的思路则是:先学会忽略不重要的细节(通过编码器),在压缩后的表征空间做预测,然后用这个预测能力来规划行动。这更接近人类和动物实际思考的方式。

当然,LeCun自己也承认,这条路未必走得通。他比任何人都清楚AI领域"这次不一样"的宣言已经被打脸多少次。但至少,这是一个有清晰理论依据、有具体技术路线、并且敢于对抗主流的押注。

核心归纳

Q1: 为什么LLM无法达到人类智能?

LLM只能处理离散token,无法有效处理高维连续噪声数据。文本信息稀疏且多为孤立事实,缺乏物理世界的结构性知识。婴儿通过感知学到的基础物理常识(物体恒常性、重力等),LLM只能通过fine-tuning来"假装"理解,无法真正掌握底层动力学。

Q2: 世界模型与当前视频生成模型有何本质区别?

视频生成模型在像素空间做预测,目标是生成"看起来对"的图像,不保证物理一致性。世界模型在学习到的抽象表征空间做预测,编码器自动过滤不可预测的细节,预测只关注与任务相关的抽象状态变化。前者是"画出来像",后者是"理解发生了什么"。

Q3: 为什么LeCun认为达到狗级智能比达到人类智能更难?

人类相比其他灵长类的主要差异是语言能力,只涉及大脑中两小块区域,进化历史不到百万年。而狗级智能需要的核心能力——感知真实世界、建立世界模型、预测行动后果并规划——是几亿年进化的结果,涉及prefrontal cortex等复杂结构。LLM已经能做语言接口,但世界模型还没有突破。

发布于 中国台湾