具身智能未到GPT-1

#机器人行业还没到GPT1水平##科技漫谈#
看到@微博科技《科技漫谈》新一期对话智元机器人合伙人、觅蜂科技董事长兼CEO姚卯青，聊到了几个适合讨论的具身智能话题，来聊聊我的看法：

先说结论：具身智能现在的水平，连GPT-1都还没到。

不是夸张。姚卯青亲历过Google、Waymo、蔚来、智元、觅蜂的技术迭代，他一语戳破行业瓶颈——当下火爆的具身智能，水平甚至还没追上初代GPT。从数据角度来看，当前行业仍处在确立技术路径的早期，相当于大模型在Transformer架构刚提出的2017年至2018年阶段。

为什么这么慢？问题不在算力，不在算法，在数据。

大语言模型GPT-5的训练语料折合约100亿小时，而全行业汇聚的高质量具身数据仅约50万小时。差距是以万倍计的。物理AI真机交互数据量不足大语言模型的两万分之一，而且标准缺失、质量参差不齐、供需错配。

更麻烦的是，具身智能连训练范式都没统一。大模型已经确立了“预训练—后训练”的技术路径，但具身智能在预训练后如何通过后训练提升泛化能力，至今没有公认的方法论。每个团队都有自己的技术信仰，路线还在发散。

那VLA和世界模型，谁才是终局？

过去一年，行业一直在吵这个问题：机器人到底该走VLA（视觉-语言-动作模型），还是走世界模型？

姚卯青的团队走的是ViLLA架构——通过VLM与MOE融合实现通用感知与动作能力，让机器人既能从人类视角学习动作规律，又能掌握物理世界交互逻辑。本质上是在做融合，不是在二选一。

智平方创始人郭彦东在智源大会上给了更明确的判断：世界模型不是VLA的竞争路线，而是VLA体系中的核心组成部分。世界模型负责理解物理环境，VLA负责作用于世界，两者天然就该是一个整体。智源研究院院长王仲远说得更直白：世界模型与具身智能的关系，本质上是“大脑”与“身体”的关系。

所以不存在谁取代谁的问题。真正能跑出来的，大概率是融合路线。

最后说说护城河。机器人被抄是常态，真正的壁垒在哪？

硬件层面的领先，窗口期正在急剧收缩。优必选2025年全尺寸工业级人形机器人交付1079台，位居全球第一，但这个数字放在整个制造业里微不足道。车企正在全面进场——小鹏、理想等明星车企依托智能汽车与人形机器人高度同源的技术底座，加速跨界切入。

真正的护城河正在从硬件转向数据和算法闭环。摩根士丹利也判断，未来人形机器人行业的护城河将越来越集中在世界模型、VLA模型和真实世界数据飞轮等能力上。

姚卯青的布局很清晰：他同时在做两件事——智元负责机器人的本体和部署，觅蜂科技专注物理AI数据基础设施。2026年智元出货目标提升至2万台以上；觅蜂则计划2026年实现千万小时级数据产能，2030年达到百亿小时级。

硬件可以被抄，供应链可以被复制，但数据飞轮一旦转起来，就是别人追不上的东西。

发布于广东