李飞飞谈大模型局限

李飞飞的新判断：大模型什么都懂，就是看不见。

翻了一下李飞飞关于空间智能的公开内容，一场 TED 演讲、一篇将近一万字的长文、好几期播客访谈，加上她创办的公司 World Labs 的产品发布。（当然说是看，其实我是用 AI 快速扫了一遍，进行归纳总结）看完之后有个很强的感受：她对大模型的判断，跟当下主流讨论的方向不太一样。

李飞飞大概不用多介绍。斯坦福计算机系教授，做出 ImageNet 的人。ImageNet 是2010年代深度学习起飞的起点，没有这个数据集，今天的 AI 大概率不会长这样。2024年初她创办了 World Labs，目前融了超过十二亿美元，估值大约五十亿，投资人包括 a16z、英伟达、Autodesk，天使投资人里有深度学习先驱 Hinton 和谷歌 AI 负责人 Jeff Dean。四个联合创始人里有 NeRF（一种用神经网络生成三维场景的技术）的共同发明人。

她的核心判断是：当下的大模型，不管看起来多强，其实有一个根本性的局限——只懂语言，不懂空间。

她在长文里用了一个说法挺准确：大模型是「在黑暗中的文字匠」，说得漂亮、懂得很多，但没经历过真实世界，脚不沾地。你让大模型估计两个物体之间的距离，准确率跟随机猜差不多。让它在脑子里旋转一个物体、走一个迷宫、预测一个球滚下斜坡后的轨迹，大部分情况都会出错。

这背后的逻辑她讲得很清楚。语言本质上是一维的，一个字接一个字，一句话接一句话。但真实世界是三维的，复杂度完全不在一个量级。她在一次访谈里说了句话挺到位：「语言是人的语言，三维才是自然的语言。」

她把这种理解和操作三维世界的能力叫「空间智能」。在 TED 演讲里她从五亿四千万年前的寒武纪大爆发讲起，那是地球上第一批生物长出眼睛的时代，视觉的出现直接引爆了物种的大规模演化。她的论点是：看见不只是接收信息，看见是为了行动，行动反过来让你看得更好。这个「看见、行动、学习」的循环，是智能最底层的脚手架。神经科学的研究也支持这个方向：人类大脑皮层有超过一半的面积直接或间接参与视觉和空间处理。

World Labs 在做的事，就是把这个判断变成产品。他们不做大语言模型，做的是「大世界模型」（对标大语言模型，但处理的是三维空间）。2025年底发布了第一个产品叫 Marble，能从一段文字、一张照片或一段视频生成可以走进去的三维空间。不是生成一张好看的图或一段视频，是一个有持续空间结构的三维环境，你在里面移动视角，空间是连贯的。生成的场景可以导入主流三维引擎，也能在 VR 头显上直接看。

从应用看，有三个方向值得留意。

第一个是机器人。其实训练机器人最大的瓶颈往往不是算法，是场景。你得有足够多样的三维环境让机器人反复练习。World Labs 已经把 Marble 接进了英伟达的机器人仿真平台，能在几分钟内生成一个仓库或厨房的三维环境，让机械臂在里面练抓取和搬运。以前搭一个仿真场景要工程师手工建模好几天。

第二个是 AR 和混合现实。Marble 生成的场景已经能在苹果 Vision Pro 和 Meta Quest 上看。李飞飞反复提到一个场景：戴着 AR 眼镜走进一个国家公园，眼镜能认出你看到的植物和地形，实时给你背景信息。这不只是图像识别，是理解你在三维空间里的位置和朝向。

第三个是建筑和空间设计。Autodesk 在最新一轮投了两亿美元，目标是把三维生成能力接进 CAD 设计软件。设计师画一个粗略的空间布局，AI 自动补上细节和材质。

这些都还在早期。World Labs 到2025年底还没有正式营收，机器人和建筑领域的落地都还是原型阶段。李飞飞自己在一次访谈里也说得坦率：「这个东西目前还没跑通。」

但她押注的方向值得认真想。当下关于 AI 的讨论几乎全集中在语言，怎么让模型更聪明、推理更强、回答更准。李飞飞提了一个不同的问题：如果智能的基础不是语言而是空间，那现在的路线图是不是少了一大块？她的答案是：没有空间智能就不会有完整的通用人工智能。

以上，分享给大家。

发布于安徽