最近,Yann LeCun、李飞飞和谢赛宁联手发了一篇论文——「Cambrian-S:迈向视频中的空间超感知」。
非常罕见,三位大佬共同署名,而且三人中两位(LeCun和李飞飞)都是明确的世界模型布道者,而LeCun更是一位LLM批评者。
真正意义上的超感官智能,不仅需要具备看见的能力,更要能通过构建内部世界模型,主动地预判、筛选并组织其所接收的感官信息。谢赛宁说关于对这个问题的思考,甚至让他们重构了此前基础的研究。
去年,他们就构建了Cambrian-1,这是针对图像多模态模型的一次开放性探索。
扩展阅读:LeCun谢赛宁首发全新视觉多模态模型,等效1000张A100干翻GPT-4V
但之后团队并没有直接扩大规模去构建Cambrian-2或3,而是停下来反思:
真正的多模态智能意味着什么?
大语言模型范式对于感官建模而言,真的合理吗?
以及,为什么人类的感知如此毫不费力、如此直观,却又如此强大?
一些根本性的东西缺失了。
简单说就是,这三位巨头认为LLM目前虽然能力很强,但依然无法像人类一样感知这个世界,既然无法感知,代表LLM是有缺陷的。
[柯基]谢赛宁在博客中表示,在构建出「超感知」之前,不可能真正构建出「超级智能」。
那么,什么是超感知 (supersensing)?
在团队看来,「超感知」并非指更高级的传感器或更好的摄像头。
它关乎一个数字生命如何真正地体验世界——吸收源源不断的输入流,并从中学习。
超感知是智能的一部分,正如眼睛是大脑触及外部世界的那一部分。解决编程和数学问题时不需要感知能力。
但身处现实世界中的AI智能体,则需要感官建模!
