郎博回应的其实不只是王兴兴,还有蔚来、华为、小鹏的最新一代技术架构。
蔚来的NWM,华为的WA,小鹏的第二代VLA都提出拿掉Language,直接用世界模型控车。其中小鹏还曾并行开发两套技术方案,最终发现拿掉L之后表现更出众。
宇树的实践是:在对VLA模型进行强化学习训练时发现局限性,认为用谷歌提出的视觉生成模型(世界模型的关键支撑)能达到更好的效果。
王兴兴认为具身智能模型今天的研发瓶颈是模型本身,而郎博认为是数据。理想拥有上百万辆车构建的数据闭环。而机器人领域获取数据相对困难。(所以用不好VLA模型
另一个核心分歧是:郎博认为世界模型更适合做“考场”而非“考生”,因为对算力要求太高,只适合放在云端。对此,小鹏的解决思路是在车端多堆算力,目前堆到1200T。王兴兴认为机器人需要大规模、低成本、峰值功耗在100w以内的算力。
(P.S 王兴兴的演讲由AIHub 整理 http://t.cn/AXydtwcc
发布于 北京
