我刚读完李飞飞最新的万字长文,《从文字到世界:空间智能是人工智能的下一个前沿》。
最直观的感受是:我们都在为 AI 现在的能力着迷时,李飞飞指出了一个巨大的盲区。
现在的 AI,本质上是个活在黑暗中的话痨。
这篇文章,并不是一般的技术展望,而像是一份 AI 进化之路上缺失的拼图。
作为 ImageNet 的作者,她提出的空间智能(Spatial Intelligence),让我对“什么是智能这件事”重新思考。
给你分享几个击中我的点,希望也能给你带来一些新视角。
一、LLM 是博学的,但它视力不太好
这是文章中最让我震撼的一个比喻。
李飞飞说,现在的大语言模型(LLM)像是一个被关在黑暗房间里的博学者。
它们读过所有的书,能写出最华丽的诗句,甚至能生成极其逼真的视频。
但是,它们缺乏根基。
它们不知道把咖啡倒进杯子时,如果手抖倒歪了液体会洒出来。它们不知道在拥挤的人行道上,如何侧身避让一个匆匆路过的行人。它们只有语言的逻辑,没有物理的直觉。
这种直觉,就是空间智能。
我突然意识到,现在人们对 AI 的崇拜,其实是对语言能力的崇拜。
但对于在物理世界中生存的生物来说,语言是进化的最后一步,空间感知才是生存的基石。
二、进化的秘密:先有动,后有智
李飞飞在这里引入了一个生物学视角,非常精彩。
早在人类学会说话、建立文明之前,动物就已经具备了极高的智能。这种智能来源于感知与行动的循环。
文章里举了一个特别有画面感的例子:古希腊的埃拉托色尼。
他不是坐在书房里算出了地球周长,而是通过观察亚历山大城和塞恩城在夏至日正午影子的不同(这就是空间智能),结合几何学推算出来的。
还有沃森和克里克发现 DNA 双螺旋结构,不是靠写论文写出来的,而是靠摆弄金属板和导线,在三维空间里拼出来的。
这打破了我以前的一个认知:我总以为思维是抽象的。
但李飞飞在说,很多顶级的认知和创造,本质上是空间性的。如果你不能在脑海中旋转一个物体,不能理解物体之间的物理关系,你的智能就是残缺的。
现在的 AI,恰恰就缺了这一块。
三、从预测下一个词到预测下一个世界
这是李飞飞新公司 World Labs 正在做的事,叫做世界模型(World Models)。
跟现在的 Sora 或者 Runwway 生成视频是两码事。目前的视频生成模型,经常会出现“上一秒那个人还戴着帽子,下一秒帽子融化进头发里”这种恐怖谷效应。
为什么?因为模型不懂物理,它只是在堆砌像素。
李飞飞提出的世界模型,要求 AI 必须理解重力、理解光影、理解物体恒存性。
她提到的 Marble 项目让我很期待。
这不是简单的 3D 建模,也不仅仅是为了做游戏或电影,而是生成一个有物理法则的、互动的世界。
想象一下,如果我们要造一个照顾独居老人的机器人。这个机器人不能只是陪聊(LLM),它必须能看着老人的动作,预判他快要摔倒了,并在一瞬间冲过去扶住,这就需要极高精度的空间预测能力。
没有空间智能,机器人永远只能在工厂流水线上拧螺丝,进不了我们的家庭。
四、维特根斯坦的那句话
文章引用了维特根斯坦的一句名言:我的语言的界限,意味着我的世界的界限。
目前的 AI 被困在语言(和类似语言的代码/像素序列)里,所以它们的世界是有限的。
李飞飞的野心在于,她想让 AI 突破语言的边界,去触碰那个真实的、粗粝的、充满物理法则的世界。
这让我感到一种久违的兴奋,过去的几年,AI 圈儿更多都在卷文本,卷谁的参数大,谁的上下文长。
但李飞飞在提醒我们:文字只是现实的投影,而非现实本身。
如果说 ChatGPT 是让 AI 学会了读万卷书,那么空间智能就是让 AI 开始行万里路。
最后一点感触:
李飞飞在文末提到,她的动机始终是AI 必须增强人类,而非取代人类。
这不是一句空话,当她谈到机器人协助科学家做实验,或者帮助护理人员照顾病人时,那种技术理想主义的温度,你能切实的感受到。
空间智能的终局,不是创造一个超越我们的数字神灵,而是创造出一个伙伴。
他能真正理解我们所处的物理环境,能帮我们拿水杯,也能扶我们一把。
从文字到世界,这确实是 AI 最值得期待的下一个前沿。
#空间智能##李飞飞#
