看了这期《科技漫谈》姚卯青的对话,我感觉有个观点说的很对,特别值得我们聊一聊,就是:语言是高度压缩且有损的。这句话简直说出了我的心里话,直击要害。
什么意思呢?我们总觉得,大模型这么强了,机器人听懂人话应该就够了吧?其实远远不够。人类说一句「把那杯水递给我」,你能秒懂,是因为你脑子里已经有了整个世界的物理常识。你知道水会流动,杯子倾斜了会洒,玻璃杯捏太紧会碎。这些东西,语言里根本没写,但你全都知道。
机器人呢?它只学了语言,就相当于只拿到了一份高度压缩的说明书,而真实世界那些关于力度、温度、形变、液体流动的细节,全在压缩过程中丢掉了。所以现在很多具身智能看着酷炫,本质上还停留在「视觉到动作」的肌肉映射阶段,离真正理解世界差得远。
姚卯青说得很直接:具身智能距离涌现,还处于前夜的前夜。真正觉醒至少还需要一亿小时的真实数据,触觉的、力觉的、温度的、场景的,这些维度的数据量目前严重不足。
那 VLA 和世界模型谁是终局?姚卯青的判断是,都不是。世界模型确实在理解物理规则方面做得更好,能给机器人更多想象空间,但最终一定会有更好的范式出现。这个行业现在连 GPT1的阶段都没到,谈终局还太早了。
说白了,让机器人听懂人话只是第一步,让它真正理解这个世界是怎么运转的,才是最难的那一步。
#机器人行业还没到GPT1水平##科技漫谈# http://t.cn/AXaYHPzP
发布于 山东
