姚卯青：语言有损压缩

看了这期《科技漫谈》姚卯青的对话，我感觉有个观点说的很对，特别值得我们聊一聊，就是：语言是高度压缩且有损的。这句话简直说出了我的心里话，直击要害。

什么意思呢？我们总觉得，大模型这么强了，机器人听懂人话应该就够了吧？其实远远不够。人类说一句「把那杯水递给我」，你能秒懂，是因为你脑子里已经有了整个世界的物理常识。你知道水会流动，杯子倾斜了会洒，玻璃杯捏太紧会碎。这些东西，语言里根本没写，但你全都知道。

机器人呢？它只学了语言，就相当于只拿到了一份高度压缩的说明书，而真实世界那些关于力度、温度、形变、液体流动的细节，全在压缩过程中丢掉了。所以现在很多具身智能看着酷炫，本质上还停留在「视觉到动作」的肌肉映射阶段，离真正理解世界差得远。

姚卯青说得很直接：具身智能距离涌现，还处于前夜的前夜。真正觉醒至少还需要一亿小时的真实数据，触觉的、力觉的、温度的、场景的，这些维度的数据量目前严重不足。

那 VLA 和世界模型谁是终局？姚卯青的判断是，都不是。世界模型确实在理解物理规则方面做得更好，能给机器人更多想象空间，但最终一定会有更好的范式出现。这个行业现在连 GPT1的阶段都没到，谈终局还太早了。

说白了，让机器人听懂人话只是第一步，让它真正理解这个世界是怎么运转的，才是最难的那一步。

#机器人行业还没到GPT1水平##科技漫谈# http://t.cn/AXaYHPzP

发布于山东