LeCun李飞飞谢赛宁发表新论文

最近，Yann LeCun、李飞飞和谢赛宁联手发了一篇论文——「Cambrian-S：迈向视频中的空间超感知」。

非常罕见，三位大佬共同署名，而且三人中两位（LeCun和李飞飞）都是明确的世界模型布道者，而LeCun更是一位LLM批评者。

真正意义上的超感官智能，不仅需要具备看见的能力，更要能通过构建内部世界模型，主动地预判、筛选并组织其所接收的感官信息。谢赛宁说关于对这个问题的思考，甚至让他们重构了此前基础的研究。

去年，他们就构建了Cambrian-1，这是针对图像多模态模型的一次开放性探索。

扩展阅读：LeCun谢赛宁首发全新视觉多模态模型，等效1000张A100干翻GPT-4V

但之后团队并没有直接扩大规模去构建Cambrian-2或3，而是停下来反思：

真正的多模态智能意味着什么？
大语言模型范式对于感官建模而言，真的合理吗？
以及，为什么人类的感知如此毫不费力、如此直观，却又如此强大？
一些根本性的东西缺失了。

简单说就是，这三位巨头认为LLM目前虽然能力很强，但依然无法像人类一样感知这个世界，既然无法感知，代表LLM是有缺陷的。

[柯基]谢赛宁在博客中表示，在构建出「超感知」之前，不可能真正构建出「超级智能」。

那么，什么是超感知 (supersensing)？

在团队看来，「超感知」并非指更高级的传感器或更好的摄像头。

它关乎一个数字生命如何真正地体验世界——吸收源源不断的输入流，并从中学习。

超感知是智能的一部分，正如眼睛是大脑触及外部世界的那一部分。解决编程和数学问题时不需要感知能力。

但身处现实世界中的AI智能体，则需要感官建模！