高飞 26-03-12 22:37
微博认证:至顶科技创始人 AI博主

#模型时代# 10亿美元种子轮融资后,杨立昆又发了一期播客:LLM是死路一条,模型的语言操控能力制造了"聪明"的假象

2026年3月11日,华沙与帕洛阿尔托的科学叙事频道This Is The World发布了对Yann LeCun的独家专访,标题直接亮出立场:"LLMs Are A Dead End"。采访在纽约完成。。视频上线前一天,他创立的Advanced Machine Intelligence(AMI)刚刚宣布完成10.3亿美元种子轮融资,投前估值35亿美元,刷新欧洲初创公司种子轮纪录。投资方包括Bezos Expeditions、Nvidia、淡马锡、丰田创投等。

拿了融资,杨立昆说话更硬气了[无聊]

一、LLM为什么走到了尽头

1、语言操控能力制造了"聪明"的假象

LeCun的核心论点可以浓缩为一句话:我们被语言能力骗了。AI系统能操控语言,让人误以为它们很聪明,但它们不理解物理世界,没有持久记忆,不能真正推理,也不能规划。这四项能力是智能行为的基本特征,当前的LLM一项都做不好。

他反复强调一个对比:LLM能通过律师资格考试、能解数学题、能写出像样的文章,但我们至今没有能完成猫狗级别任务的家用机器人,没有真正可靠的L5自动驾驶,更没有一个AI能像17岁少年一样用20小时学会开车。这个差距说明缺了什么关键的东西。

2、离散符号 vs 连续现实:一个数学层面的根本障碍

语言之所以能被LLM处理得好,是因为它是离散的,由有限数量的词组成。系统可以为字典中每个词输出一个概率分布来处理预测中的不确定性。

但视频和物理世界是连续的高维空间。LeCun说他自己尝试了20年,试图训练系统预测视频中接下来会发生什么,结论是行不通。无法表示"所有可能的下一帧画面"的概率分布。在离散空间里可行的技术,搬到连续空间就失效了。

这正是AI领域经典的Moravec悖论:计算机能下棋、解数学题,却做不了动物轻而易举的事情。离散符号的空间容易被计算机操控,真实世界则远远超出它的能力范围。

3、10^14字节的算术揭示了文本训练的天花板

LeCun给出了一个具体计算。一个典型的大语言模型用大约20万亿个token训练,每个token约3个字节,总共约10^14字节。这相当于互联网上所有公开可用的文本,任何人读完需要几十万年。

然后对比:一个幼儿在出生后头四年里清醒时间约16000小时,通过视觉系统进入大脑的信息流速约为每秒2兆字节。算下来也是约10^14字节。

一个四岁孩子看到的信息量和最大的LLM训练量相当。这意味着只靠文本训练永远到不了人类水平的AI,必须让系统学会理解真实世界。

二、三种学习范式与JEPA的新路径

LeCun详细梳理了机器学习的技术演进,目的是说明现有范式为什么都不够用,以及为什么需要一种全新的架构。

1、监督学习、强化学习、自监督学习各有天花板

监督学习是最经典的方式:给系统看一张图,告诉它"这是桌子",系统调整参数直到输出正确答案。大量重复后,系统不仅能识别训练过的图片,还能识别从未见过的相似图片。

强化学习曾被认为更接近动物和人类的学习方式:不告诉系统正确答案,只告诉它做得好不好。学骑自行车就是这个逻辑,摔倒了就知道策略不对。但强化学习效率极低,用来下棋很好,因为可以让系统自己跟自己下几百万盘。在真实世界里行不通,你不可能让一辆车撞几千次来学驾驶。

第三种是自监督学习,驱动了聊天机器人的突破。不训练系统完成特定任务,而是让它捕捉输入数据的内部结构。对文本来说,就是遮住一些词让系统去预测。所有的聊天机器人本质上都是这么训练的。效果惊人,但这套方法用在理解物理世界上就不灵了。

2、JEPA不是Transformer的替代品,二者是正交关系

LeCun澄清了一个常见误解:JEPA(Joint Embedding Predictive Architecture,联合嵌入预测架构)不是Transformer的竞争对手。JEPA是一种宏观架构,内部的模块可以是Transformer,也可以是别的东西。

JEPA真正对标的是当前大语言模型采用的"自回归、仅解码器"架构,也就是OpenAI叫GPT的那种结构。它的规则是:预测某个位置的词时,系统只能看到它左边的内容,然后一个词一个词地往右生成。

3、在抽象表征空间里做预测,绕过"预测不可预测之物"的死循环

JEPA的核心思路是不在原始输入空间里做预测,而是先学习输入的抽象表征,然后在表征空间里做预测。

LeCun举了一个直观的例子:你在一个房间里用摄像机拍摄,慢慢转动镜头后停下来,问系统"接下来会看到什么"。系统也许能猜到镜头会继续转动,但它绝不可能预测视野中会出现什么种类的植物、墙上挂着什么画、地板是什么纹理。强迫系统去预测这些细节,等于让它把大量资源浪费在注定失败的任务上。

在抽象表征空间里,系统可以忽略这些细节,只预测结构性信息。这才是可行的方向。

三、推理困境、机器人赌注与马斯克承诺

LeCun在达沃斯花了很多时间谈机器人。推理、规划、物理世界理解这三个难题,在机器人场景中全部交汇。

1、当前AI的推理方式极其原始

所有推理系统的本质都是搜索:在可能的解空间中寻找满足目标的方案。当前LLM的做法是在token空间(输出空间)里搜索,让系统随机生成大量输出序列,再用另一个神经网络从中挑出看起来最优的那个。代价极高,而且完全不是人类思考的方式。

LeCun用了一个现场实验:想象一个悬浮在空中的立方体,绕垂直轴旋转90度,看起来和原来一样吗?答案是"是",因为你在心智空间中操作了一个内部模型。你没有生成一百万种旋转结果再挑一个,而是直接在抽象表征中完成了推理。

2、层级规划是智能的核心,目前没有任何机器能做到

从纽约回华沙,你知道要去机场、打车、下楼、走到电梯、站起来。每个目标分解为子目标,一路分解到不需要刻意规划的动作(从椅子上站起来你不需要想怎么做,因为太熟悉了)。

这种层级规划能力是智能的核心难题。LeCun坦言,我们完全不知道怎么让机器做到这一点。这是未来几年最大的挑战。

3、机器人公司在押注一个它们自己无法控制的变量

过去一两年成立了大量人形机器人公司,演示都很惊艳,但那些机器人非常笨。物理能力不是瓶颈,智能才是。这些公司其实在赌AI会在三到五年内取得足够大的进展,等到它们准备好大规模量产时,机器人会因为AI的进步而变聪明。

LeCun无法保证三到五年内会发生,但十年内很可能会有显著进展,所以他说"下一个十年是机器人的十年"。

4、点名回怼马斯克:说了八年的"明年实现"

采访者提到马斯克说特斯拉将在五年内实现L5自动驾驶。LeCun的回应很直接:"他过去八年每年都在说明年就能实现,显然没有兑现。你应该停止相信他了。要么他以为自己是对的但事实证明错了,要么他就是在撒谎。"

他认为这种策略可能是为了激励团队逐年进步,但对工程师和科学家来说其实很痛苦:你把整个职业生涯投入的问题,CEO说明年就能解决。

四、开源信仰、信息本质与意识之谜

1、开源是AI进步快的真正原因

全球AI行业在研发阶段几乎都在使用PyTorch。这个开源框架最初由LeCun在Meta的同事开发,后来所有权转给了Linux基金会。OpenAI在用,Anthropic在用,Microsoft、Nvidia都在用。在科学论文中,大约70%提到了PyTorch。

LeCun的逻辑很清楚:如果一项研究的技术和代码是开源的,全世界都能从中受益,而不只是发明者。发明者得到声望和认可,全世界得到加速。过去十年AI进步如此之快,开源研究是根本原因。他说这"不是信念,是事实"。

Meta第一个引起广泛关注的LLM Llama,就是在LeCun十年前创建的巴黎FAIR实验室里做出来的,那个实验室有超过100名研究人员。他对OpenAI从开放转向封闭、Anthropic从头到尾不公开、Google逐步收紧透明度表示遗憾,认为这些公司主动退出了全球研究社区。

2、信息没有绝对的度量:LeCun的熵执念

LeCun透露了一个他长期思考的基础性问题:信息量不是绝对的,而是取决于解读者。你从一条消息中提取多少信息,取决于你怎么解读它。这意味着信息没有绝对的度量方式,每种度量都是相对于某种特定解读方式的。

推论很深远:如果没有绝对的信息度量,那么物理学中的熵也没有客观定义。熵是对一个物理系统状态无知程度的量度,而"无知"当然取决于你对系统了解多少。LeCun一直试图找到相对性的方式来定义熵、复杂度和信息含量。这个方向还没有答案,但他认为值得持续追问。

3、意识可能是个"问错了的问题"

LeCun把意识比作早期科学中的视网膜倒像之谜。几百年前人们发现视网膜上的图像是倒的,困惑不已:我们怎么能看到正的世界?后来才发现这个问题根本就没意义,大脑解读图像的方式与成像方向无关。

他认为意识可能属于同一类问题:我们觉得它存在,但无法定义、无法测量、无法确定界限在哪里。猿猴有意识吗?大象呢?狗呢?老鼠呢?因为没有好的定义,所以无法回答。

不过他对AI系统的情感做了一个有趣的预判。基于世界模型的AI系统会产生类似情感的状态:当系统预测到目标将被完成,它进入"高兴"状态;预测无法完成,就"不高兴"。因为情感本质上是对结果的预期。但不会硬编码愤怒或嫉妒这类东西。

总结

LeCun在这次对话中做了一件少见的事:他没有只批评LLM,而是完整地从第一性原理出发,解释了为什么物理世界的理解问题在数学上比语言问题难几个数量级,为什么现有技术在连续高维空间中失效,以及JEPA如何通过抽象表征空间来绕过这个根本障碍。他带着10亿美元的筹码离开Meta去验证这个判断,给了这些观点真金白银的重量。关键问题不是LLM能否继续改进(当然能),而是沿着这条路能否到达真正理解世界的终点。LeCun的答案很明确:不能。

核心归纳

Q1: LeCun认为LLM最根本的限制是什么?
语言是离散的低维空间,LLM可以通过对有限词汇输出概率分布来处理预测中的不确定性。但物理世界是连续的高维空间,没有已知的数学方法来表示"所有可能的下一帧视频"的分布。这不是规模问题,是架构和数学上的根本障碍。一个四岁孩子通过视觉获取的信息量就已经等于最大LLM的全部训练数据(约10^14字节),说明通过文本扩展训练数据解决不了问题。

Q2: JEPA世界模型和当前LLM的核心区别是什么?
LLM在原始输入空间(token序列)中做预测和推理。JEPA先把输入转化为抽象表征,再在表征空间中做预测。好处是可以忽略不可预测的细节(地板纹理、人脸细节),专注于可预测的结构性信息。这解决了视频预测中"花大量资源去预测不可预测之物"的死循环。JEPA不替代Transformer,二者是正交关系,JEPA内部可以使用Transformer作为模块。

Q3: LeCun凭什么认为自己这次押对了?
他1988年发明卷积神经网络时,学术界认为这条路是死胡同。三十年后,几乎所有驾驶辅助系统、语音识别、图像识别的底层都在用这个架构。他在深度学习被冷落的年代坚持了下来,等到2013年领域爆发。现在他又站在主流共识的对面,认为LLM到不了通用智能。但这次不只是学术论文,他带着10亿美元的AMI和一个具体的技术路线(JEPA + 层级规划 + 世界模型)来验证这个判断。过去四十年里,他押注长期技术方向的记录是:早到且正确。

发布于 日本