张岱樾
26-06-17 12:46 微博认证:AI博主

#机器人行业还没到GPT1水平##科技漫谈#
看到@微博科技 《科技漫谈》新一期对话智元机器人合伙人、觅蜂科技董事长兼CEO姚卯青,聊到了几个适合讨论的具身智能话题,来聊聊我的看法:

先说结论:具身智能现在的水平,连GPT-1都还没到。

不是夸张。姚卯青亲历过Google、Waymo、蔚来、智元、觅蜂的技术迭代,他一语戳破行业瓶颈——当下火爆的具身智能,水平甚至还没追上初代GPT。从数据角度来看,当前行业仍处在确立技术路径的早期,相当于大模型在Transformer架构刚提出的2017年至2018年阶段。

为什么这么慢?问题不在算力,不在算法,在数据。

大语言模型GPT-5的训练语料折合约100亿小时,而全行业汇聚的高质量具身数据仅约50万小时。差距是以万倍计的。物理AI真机交互数据量不足大语言模型的两万分之一,而且标准缺失、质量参差不齐、供需错配。

更麻烦的是,具身智能连训练范式都没统一。大模型已经确立了“预训练—后训练”的技术路径,但具身智能在预训练后如何通过后训练提升泛化能力,至今没有公认的方法论。每个团队都有自己的技术信仰,路线还在发散。

那VLA和世界模型,谁才是终局?

过去一年,行业一直在吵这个问题:机器人到底该走VLA(视觉-语言-动作模型),还是走世界模型?

姚卯青的团队走的是ViLLA架构——通过VLM与MOE融合实现通用感知与动作能力,让机器人既能从人类视角学习动作规律,又能掌握物理世界交互逻辑。本质上是在做融合,不是在二选一。

智平方创始人郭彦东在智源大会上给了更明确的判断:世界模型不是VLA的竞争路线,而是VLA体系中的核心组成部分。世界模型负责理解物理环境,VLA负责作用于世界,两者天然就该是一个整体。智源研究院院长王仲远说得更直白:世界模型与具身智能的关系,本质上是“大脑”与“身体”的关系。

所以不存在谁取代谁的问题。真正能跑出来的,大概率是融合路线。

最后说说护城河。机器人被抄是常态,真正的壁垒在哪?

硬件层面的领先,窗口期正在急剧收缩。优必选2025年全尺寸工业级人形机器人交付1079台,位居全球第一,但这个数字放在整个制造业里微不足道。车企正在全面进场——小鹏、理想等明星车企依托智能汽车与人形机器人高度同源的技术底座,加速跨界切入。

真正的护城河正在从硬件转向数据和算法闭环。摩根士丹利也判断,未来人形机器人行业的护城河将越来越集中在世界模型、VLA模型和真实世界数据飞轮等能力上。

姚卯青的布局很清晰:他同时在做两件事——智元负责机器人的本体和部署,觅蜂科技专注物理AI数据基础设施。2026年智元出货目标提升至2万台以上;觅蜂则计划2026年实现千万小时级数据产能,2030年达到百亿小时级。

硬件可以被抄,供应链可以被复制,但数据飞轮一旦转起来,就是别人追不上的东西。

发布于 广东