【李飞飞重磅长文:超越语言模型,空间智能是AI的下一个十年】
在图灵提出“机器能思考吗”这个问题七十五年后,AI 领域正站在一个新的转折点。11 月 10 日,#斯坦福大学# 教授、World Labs 联合创始人#李飞飞# 发表长文,再次重申和论述:空间智能是人工智能的下一个前沿。
在这篇文章中,李飞飞开门见山地指出了当今 AI 的根本局限。大语言模型虽然能够生成流畅文本、编写代码、创作图像,却仍是“黑暗中的文字匠”,雄辩但缺乏经验,知识渊博却不够扎根。它们在估计距离、旋转物体、导航空间、预测物理等基本空间任务上的表现往往不比随机猜测更好。这种局限本质上是源于当前 AI 缺少一种基础能力:#空间智能# 。
李飞飞将空间智能定义为“人类认知的脚手架”。从日常的泊车、接球、倒咖啡,到消防员在烟雾中的瞬间判断,再到埃拉托色尼用影子测量地球周长、沃森和克里克用物理模型发现 DNA 结构,空间智能渗透在人类活动的方方面面。它不仅关乎视觉,更是感知、行动、想象与创造的交汇点。
实现空间智能的技术路径正是李飞飞一直所强调的世界模型(World Models),她为世界模型定义了三个核心能力:生成性(能够创造具有几何和物理一致性的世界)、多模态(可以处理图像、视频、文本、动作等多种输入)、交互性(能够基于动作预测下一个世界状态)。这些能力的实现面临着定义通用训练任务、处理大规模空间数据、设计新型架构等一系列技术挑战,目前,World Labs 已经推出了首个世界模型 Marble,允许用户通过多模态输入生成和探索一致的三维环境。
戳链接查看详情:http://t.cn/AX2VvLAS
