Yann LeCun创业论AI局限

#模型时代# Yann LeCun离开Meta创业：为什么LLM永远无法通向AGI，以及世界模型的真正路径，对AI感兴趣应该学“工程数学、物理学和学习学”

图灵奖得主、Meta AI首席科学家Yann LeCun（杨立昆）在和扎克伯格合作12年后离开Meta，创办了新公司AMI（Advanced Machine Intelligence）。这两天他的一些播客采访陆续上线。

我现在发的这一期是来自The Information Bottleneck播客，他与主持人Ravid Shwartz-Ziv、Allen Roush进行了一场深度对话。一共谈了1小时50分。

LeCun直言硅谷对LLM的执念是"complete bullshit"，并详细阐述了他认为真正通向智能的路径——基于世界模型和抽象表征空间的预测系统。

LeCun花了大量篇幅解释为什么当前主流AI路线存在根本缺陷，为什么达到"狗级智能"比达到"人类智能"更难，以及为什么他在65岁选择重新创业。

他的很多观点大家可能都熟悉了，不过以前老爷子是只需要讲出道理，现在创业了，还要把道理变成产品，挑战这个新高度就非常有勇气了。然后，杨立昆离开Meta创业的状态，感觉很好，大家可以看图片。

一、LLM的根本局限：为什么规模化是死胡同

LeCun的核心论点很直接：LLM只能处理离散的、符号化的文本，无法处理真实世界中高维、连续、有噪声的数据。

1、数据量的对比揭示本质差异

训练一个顶级LLM需要约30万亿token，大约10^14字节。这听起来很多。但同样的数据量换算成视频，只有15000小时——相当于YouTube上30分钟的上传量，或者一个4岁孩子清醒时间累计看到的视觉信息总量。

"文本里有很多孤立的事实，冗余性很低，你需要巨大的网络来存储和复述这些事实。而视频数据虽然字节量更大，但冗余性更高，结构也更丰富。"

这个对比说明：文本数据本质上信息稀疏，而视觉数据包含了物理世界的结构性知识。用LLM学习世界，就像只通过听人描述来学游泳。

2、LLM不理解基础物理

LeCun举了一个他反复使用的例子：把物体放在桌上，推动桌子，物体会跟着动。这是9个月大婴儿就能理解的常识，但LLM并不真正"理解"这个物理规律——它只是被fine-tune到能给出正确答案。

"你可以训练它们给出正确答案，但那是复述，不是真正理解底层动力学。"

类似的还有"一个人不能同时出现在两个地方"这种我们甚至不会意识到自己学过的知识。婴儿通过物体恒常性（object permanence）来学习这些，而LLM没有任何机制来获取这类基于感知的知识。

3、视觉能力是外挂，不是核心

当前多模态模型的视觉能力实际上是单独训练的，然后接入LLM。"如果你试图用LLM架构直接学习图像或视频的良好表征，效果很差。"这说明LLM的核心架构根本不适合处理连续的高维信号。

二、世界模型：预测在抽象空间，而非像素空间

LeCun认为，真正的智能需要能预测行动后果并据此规划的系统。这就是世界模型（World Model）的核心理念。

1、不要在像素级别做预测

很多人（包括LeCun自己早年）尝试过用神经网络预测视频的下一帧。结果都不好。原因很简单：像素级预测是不可能的任务。

"你无法真正表示视频帧空间上的有用概率分布。"

即使是当前流行的视频生成模型（如Sora），也不能保证学到了准确的物理动力学模型。它们可能只是在生成"看起来对"的视频，但物理一致性无法保证。

2、JEPA架构：学习抽象表征

正确的做法是在表征空间而非像素空间做预测。这就是JEPA（Joint Embedding Predictive Architecture，联合嵌入预测架构）的核心思想。

具体来说：输入X和目标Y分别通过编码器得到各自的表征，然后训练一个预测器从X的表征预测Y的表征。关键在于，编码器会自动学习忽略那些"不可预测的细节"（包括噪声）。

"真正避开像素级预测问题的方法，就是根本不在像素级别做预测。"

3、物理学的启示：分层抽象

LeCun用CFD（计算流体力学）做类比。模拟飞机周围的气流时，没人会去模拟每个空气分子——那需要天文数字级的计算量。相反，我们用纳维-斯托克斯方程在宏观层面做近似。

科学的本质就是建立不同层次的抽象：粒子→原子→分子→细胞→器官→生物体→社会。每一层都忽略下层的大量细节，但能做出更长期、更可靠的预测。

"预测木星100年后的位置，你只需要6个数字：三个位置分量和三个速度分量。其他所有关于木星的信息都不相关。"

三、从对比学习到VICReg：防止表征坍缩的技术演进

JEPA面临一个核心挑战：如果同时训练编码器和预测器，系统会找到一个trivial解——输出常量表征，让预测任务变得无意义。这叫做表征坍缩（collapse）。

1、早期方案：对比学习

LeCun在1993年就遇到了这个问题。当时的解决方案是引入"负样本"——告诉系统哪些样本是不同的，强迫它们产生不同的表征。这就是孪生网络（Siamese Network）和对比学习的起源。

一个有趣的应用场景：有人问能不能把手写签名压缩到80字节以内，这样就能写入信用卡磁条做验证。LeCun团队用孪生网络做到了，但客户最终选择了让用户输入PIN码。

2、对比学习的局限

对比方法能用，但产生的表征维度很低——即使在ImageNet上训练，有效维度也很难超过200。"有点令人失望，但勉强能用。"

3、信息最大化的突破

大约五年前，LeCun的博士后Stéphane Deny提出了一个LeCun最初不看好的想法：直接最大化编码器输出的信息量。

LeCun不看好的原因是：信息量只有上界估计，没有下界。要最大化一个量，你要么能精确计算它，要么需要下界来"往上推"。信息论里只有上界。

但Barlow Twins方法居然work了。"我当时就想，哇，我们得把这个推进下去。"

4、VICReg和SigReg

随后LeCun团队开发了VICReg（方差-不变性-协方差正则化），比Barlow Twins更简单也更有效。最近还有SigReg，目标是让编码器输出的向量分布接近各向同性高斯分布。

"这个领域还会有很多进展，我认为这是训练能学习抽象表征的模型的正确技术方向。"

四、AMI的商业逻辑：为什么现在创业

1、研究型创业成为可能

以前做研究只能去大公司的研究院——贝尔实验室、IBM研究院、施乐PARC、微软研究院、Google Research、FAIR。这些地方之所以能做长期研究，是因为母公司在各自市场占据主导地位，有钱有闲。

现在不同了。投资者对AI的期望足够高，愿意投大钱给"前两年主要做研究"的创业公司。这在以前不可能。

2、坚持开放研究

"在我看来，如果你不发表研究成果，那就不能叫研究。因为你很容易自我欺骗。你觉得自己发明了切片面包，但如果不提交给社区检验，你可能只是在妄想。"

开放发表还有另一个好处：给研究员动力。如果你告诉他们"来这里工作，不能说你在做什么，也许5年后会影响某个产品"——没人会有干劲。但如果能发论文，他们就有即时反馈。

3、产品方向

AMI不只做研究，会做实际产品。"我们的目标是成为智能系统的主要供应商之一。"具体领域是那些LLM完全搞不定的：高维、连续、有噪声的数据处理。

五、AI安全：靠架构保证，而非fine-tuning

1、LLM的jailbreak问题

当前LLM的安全措施本质上是fine-tuning——教模型什么不该说。但总能找到绕过的prompt。"这就是为什么我说不应该用LLM。"

2、目标驱动架构的内在安全性

LeCun提倡的架构不同：系统有世界模型，能预测行动后果，然后通过优化来规划达成目标的行动序列。关键在于，优化过程同时受到约束条件（guardrails）的限制。

举例：家用机器人在切黄瓜，手里有大刀。你可以设一个底层约束："如果手里有大刀且周围有人，不许挥舞手臂。"这个约束是优化问题的硬性条件，不是通过训练"希望"模型遵守的。

"它无法逃脱这个约束。这是架构保证的，不是fine-tuning。"

3、喷气发动机的类比

喷气发动机刚发明时肯定不安全——可能跑10分钟就爆炸。但通过工程迭代，现在双发飞机能安全飞17个小时跨越半个地球。AI安全也是同样的工程问题，不是什么根本性障碍。

六、硅谷的"LLM迷思"与中国的开源优势

1、群体性迷思

硅谷现在有一种"LLM-pilled"文化：大家都在做同样的事，因为太怕落后。

"如果你开始走不同的路，就冒着被甩开的风险。所以大家都在追赶别人，形成了群体效应和单一文化。"

DeepSeek出来时，硅谷震惊了——"原来其他地方的人也能有原创想法"。这暴露了某种优越感。

2、中国开源，美国闭源

讽刺的是，美国公司越来越闭源（OpenAI早就是，Google在跟进，可能连Meta也会），而中国模型反而是目前最好的开源选择。

"现在最好的开源系统是中国的。很多行业用户都在用，虽然用起来不适应。"

学术界尤其如此——做reasoning研究的几乎都在用中国模型。

3、逃离单一文化

LeCun的新公司选择在巴黎设总部（也有纽约办公室），部分原因就是要逃离硅谷的同质化思维。"我在招那些在硅谷公司里认为'这条路走不通，我想做JEPA和世界模型'的人。"

七、关于AGI的清醒认识

1、"通用智能"是个伪概念

"这个概念毫无意义。它实际上是想指代人类级别的智能。但人类智能是高度特化的。我们能处理现实世界、能理解其他人，但下棋很烂。"

我们觉得自己"通用"，只是因为我们只能想象自己能想象的问题。还有大量问题是我们根本无法conceptualize的。

2、最难的是达到狗级智能

"一旦达到狗级智能，你就有了大部分核心组件。"

从灵长类到人类，差异主要是语言能力，而那只是大脑中很小的两块区域（Wernicke区和Broca区），进化历史不到一两百万年。LLM或许可以充当这个语言接口。真正难的是prefrontal cortex的功能——世界模型就在那里。

3、时间表

最乐观情况：如果未来两年在JEPA和世界模型上取得重大进展，5-10年内可能达到狗级或接近人类智能。

但更可能的情况是：会遇到某个我们现在没预见到的障碍，需要发明新的概念来突破。那可能需要20年甚至更久。

"这在AI历史上已经发生过至少6次了。每一代人都觉得当前的技术就是通向AGI的路径，每次都错了。"

八、给年轻人的建议：学有长保质期的东西

1、不要只学计算机科学

"这是一个计算机科学教授在劝你们不要学计算机科学。我有个可怕的confession：我本科学的是电气工程。"

原因是：CS变化太快，很多内容几年就过时了。

2、学什么
• 工程数学：微积分一二三、概率论、线性代数、优化理论、控制理论、信号处理。这些在EE和ME课程里学得更深。
• 物理学：核心问题是"我应该表征现实的哪些方面，才能建立预测模型"——这正是智能的本质。
• 学习如何学习：技术演进太快，关键是具备快速学习新东西的能力。这通过学习基础性知识来培养。

3、关于vibe coding

代码生成会变得极其便宜，很多代码可能只用一次就扔掉。但这不意味着不需要程序员——软件生成成本下降了几十年，计算机反而变得更有用了。

总结

LeCun的核心洞察可以总结为一句话：预测不应该发生在数据原始空间，而应该发生在学习到的抽象表征空间。

这不是一个增量式的改进建议，而是对当前主流路线的根本性挑战。LLM通过预测下一个token来学习，本质上是在符号空间做generative modeling。而真实世界是连续的、高维的、充满不可预测细节的。试图用离散符号来建模连续现实，就像用有理数来表示圆周率——永远只能是近似。

世界模型的思路则是：先学会忽略不重要的细节（通过编码器），在压缩后的表征空间做预测，然后用这个预测能力来规划行动。这更接近人类和动物实际思考的方式。

当然，LeCun自己也承认，这条路未必走得通。他比任何人都清楚AI领域"这次不一样"的宣言已经被打脸多少次。但至少，这是一个有清晰理论依据、有具体技术路线、并且敢于对抗主流的押注。

核心归纳

Q1: 为什么LLM无法达到人类智能？

LLM只能处理离散token，无法有效处理高维连续噪声数据。文本信息稀疏且多为孤立事实，缺乏物理世界的结构性知识。婴儿通过感知学到的基础物理常识（物体恒常性、重力等），LLM只能通过fine-tuning来"假装"理解，无法真正掌握底层动力学。

Q2: 世界模型与当前视频生成模型有何本质区别？

视频生成模型在像素空间做预测，目标是生成"看起来对"的图像，不保证物理一致性。世界模型在学习到的抽象表征空间做预测，编码器自动过滤不可预测的细节，预测只关注与任务相关的抽象状态变化。前者是"画出来像"，后者是"理解发生了什么"。

Q3: 为什么LeCun认为达到狗级智能比达到人类智能更难？

人类相比其他灵长类的主要差异是语言能力，只涉及大脑中两小块区域，进化历史不到百万年。而狗级智能需要的核心能力——感知真实世界、建立世界模型、预测行动后果并规划——是几亿年进化的结果，涉及prefrontal cortex等复杂结构。LLM已经能做语言接口，但世界模型还没有突破。

发布于中国台湾