马力AI和商业思维
26-05-18 21:47 微博认证:知群 CEO 微博新知博主

李飞飞的新判断:大模型什么都懂,就是看不见。

翻了一下李飞飞关于空间智能的公开内容,一场 TED 演讲、一篇将近一万字的长文、好几期播客访谈,加上她创办的公司 World Labs 的产品发布。(当然说是看,其实我是用 AI 快速扫了一遍,进行归纳总结)看完之后有个很强的感受:她对大模型的判断,跟当下主流讨论的方向不太一样。

李飞飞大概不用多介绍。斯坦福计算机系教授,做出 ImageNet 的人。ImageNet 是2010年代深度学习起飞的起点,没有这个数据集,今天的 AI 大概率不会长这样。2024年初她创办了 World Labs,目前融了超过十二亿美元,估值大约五十亿,投资人包括 a16z、英伟达、Autodesk,天使投资人里有深度学习先驱 Hinton 和谷歌 AI 负责人 Jeff Dean。四个联合创始人里有 NeRF(一种用神经网络生成三维场景的技术)的共同发明人。

她的核心判断是:当下的大模型,不管看起来多强,其实有一个根本性的局限——只懂语言,不懂空间。

她在长文里用了一个说法挺准确:大模型是「在黑暗中的文字匠」,说得漂亮、懂得很多,但没经历过真实世界,脚不沾地。你让大模型估计两个物体之间的距离,准确率跟随机猜差不多。让它在脑子里旋转一个物体、走一个迷宫、预测一个球滚下斜坡后的轨迹,大部分情况都会出错。

这背后的逻辑她讲得很清楚。语言本质上是一维的,一个字接一个字,一句话接一句话。但真实世界是三维的,复杂度完全不在一个量级。她在一次访谈里说了句话挺到位:「语言是人的语言,三维才是自然的语言。」

她把这种理解和操作三维世界的能力叫「空间智能」。在 TED 演讲里她从五亿四千万年前的寒武纪大爆发讲起,那是地球上第一批生物长出眼睛的时代,视觉的出现直接引爆了物种的大规模演化。她的论点是:看见不只是接收信息,看见是为了行动,行动反过来让你看得更好。这个「看见、行动、学习」的循环,是智能最底层的脚手架。神经科学的研究也支持这个方向:人类大脑皮层有超过一半的面积直接或间接参与视觉和空间处理。

World Labs 在做的事,就是把这个判断变成产品。他们不做大语言模型,做的是「大世界模型」(对标大语言模型,但处理的是三维空间)。2025年底发布了第一个产品叫 Marble,能从一段文字、一张照片或一段视频生成可以走进去的三维空间。不是生成一张好看的图或一段视频,是一个有持续空间结构的三维环境,你在里面移动视角,空间是连贯的。生成的场景可以导入主流三维引擎,也能在 VR 头显上直接看。

从应用看,有三个方向值得留意。

第一个是机器人。其实训练机器人最大的瓶颈往往不是算法,是场景。你得有足够多样的三维环境让机器人反复练习。World Labs 已经把 Marble 接进了英伟达的机器人仿真平台,能在几分钟内生成一个仓库或厨房的三维环境,让机械臂在里面练抓取和搬运。以前搭一个仿真场景要工程师手工建模好几天。

第二个是 AR 和混合现实。Marble 生成的场景已经能在苹果 Vision Pro 和 Meta Quest 上看。李飞飞反复提到一个场景:戴着 AR 眼镜走进一个国家公园,眼镜能认出你看到的植物和地形,实时给你背景信息。这不只是图像识别,是理解你在三维空间里的位置和朝向。

第三个是建筑和空间设计。Autodesk 在最新一轮投了两亿美元,目标是把三维生成能力接进 CAD 设计软件。设计师画一个粗略的空间布局,AI 自动补上细节和材质。

这些都还在早期。World Labs 到2025年底还没有正式营收,机器人和建筑领域的落地都还是原型阶段。李飞飞自己在一次访谈里也说得坦率:「这个东西目前还没跑通。」

但她押注的方向值得认真想。当下关于 AI 的讨论几乎全集中在语言,怎么让模型更聪明、推理更强、回答更准。李飞飞提了一个不同的问题:如果智能的基础不是语言而是空间,那现在的路线图是不是少了一大块?她的答案是:没有空间智能就不会有完整的通用人工智能。

以上,分享给大家。

发布于 安徽