李飞飞论空间智能发展

【李飞飞重磅长文：超越语言模型，空间智能是AI的下一个十年】

在图灵提出“机器能思考吗”这个问题七十五年后，AI 领域正站在一个新的转折点。11 月 10 日，#斯坦福大学# 教授、World Labs 联合创始人#李飞飞# 发表长文，再次重申和论述：空间智能是人工智能的下一个前沿。

在这篇文章中，李飞飞开门见山地指出了当今 AI 的根本局限。大语言模型虽然能够生成流畅文本、编写代码、创作图像，却仍是“黑暗中的文字匠”，雄辩但缺乏经验，知识渊博却不够扎根。它们在估计距离、旋转物体、导航空间、预测物理等基本空间任务上的表现往往不比随机猜测更好。这种局限本质上是源于当前 AI 缺少一种基础能力：#空间智能# 。

李飞飞将空间智能定义为“人类认知的脚手架”。从日常的泊车、接球、倒咖啡，到消防员在烟雾中的瞬间判断，再到埃拉托色尼用影子测量地球周长、沃森和克里克用物理模型发现 DNA 结构，空间智能渗透在人类活动的方方面面。它不仅关乎视觉，更是感知、行动、想象与创造的交汇点。

实现空间智能的技术路径正是李飞飞一直所强调的世界模型（World Models），她为世界模型定义了三个核心能力：生成性（能够创造具有几何和物理一致性的世界）、多模态（可以处理图像、视频、文本、动作等多种输入）、交互性（能够基于动作预测下一个世界状态）。这些能力的实现面临着定义通用训练任务、处理大规模空间数据、设计新型架构等一系列技术挑战，目前，World Labs 已经推出了首个世界模型 Marble，允许用户通过多模态输入生成和探索一致的三维环境。

戳链接查看详情：http://t.cn/AX2VvLAS