郭彦东回应VLA终结论

在一个到处都是“颠覆”和“终结”的行业里，亲眼看到有人站上台，说“你们说错了”，其实挺解气的。

4月23日，我在2026 POWER Robot未来大会现场，听完了智平方创始人兼CEO郭彦东的主论坛开场演讲。

他讲的主题很大，叫AGI迈进物理世界，通用智能机器人开启第四代智能终端时代。

但真正让我坐直身体的，反而是他回应的一个具体问题：VLA终结了吗？

我坐在台下，听他开口说：并没有结束，而在持续变强。

VLA，全称视觉-语言-行动，是目前驱动具身智能机器人的核心架构。

过去一年，随着“世界模型”等概念接连涌现，一部分人开始唱衰它，认为新范式正在取而代之。

郭彦东不这么看，他用第一性原理往下推：任何在真实世界里执行任务的智能系统，必须具备三样东西。

对环境的感知、对逻辑的推理、对行为的控制。

这三件事不会因为范式更迭而消失。

Vision、Language、Action，组织方式在变，内核的骨架没有动过。

所谓世界模型，不是颠覆者，是加持者。

这个判断，让我想了一会儿。

郭彦东的PPT画了一张时间线，把VLA的演化分成三代。

最初是最朴素的端到端对齐，让机器人看到环境、理解指令、输出动作。

第二代开始引入世界模型，机器人在行动之前先在脑子里“预演”一遍，预测可能的结果。

第三代，也是智平方这次在大会上首次对外披露的方向，叫做“类脑VLA”。

这个词听起来有点玄，但他解释得很具体：人的大脑、小脑、脊髓是分层协同运作的，大脑负责推理，小脑管协调，脊髓处理反射。

传统的机器人架构把小脑和脊髓只用来控制行走，郭彦东的团队把它们也拉进了操作任务里，让机器人在执行复杂动作时拥有毫秒级的自适应能力。

不是等大脑算完再动，而是像人一样，有一套接近生物反射的快速响应机制。

他们把这个模型命名为NeuroVLA，这次是全球首次公开。

在技术发布的节奏上，智平方走得不算慢。

2024年6月，他们推出了国内创业公司里第一个VLA大模型，规模是谷歌同类产品的二十分之一，性能提升超过80%。

2025年6月，推出了快慢系统深度融合的新一代VLA架构，性能超过国际标杆Pi0三成。

2025年11月，融合世界模型的VLA架构Video2Act发布，实现“先预测、后执行”。

这次的类脑架构，是第四个节点。

三年之内，每隔半年多就有一次代际跳跃，放在这个领域不算常见。

但郭彦东显然不满足于只做一家技术公司。

这次他们同步开放的，是一个叫做AlphaBrain Platform的开源社区。

对他们自己的定义是“全球首个一站式、开箱即用的具身智能模型开源社区”。

这个平台打通的是从数据到训练到评测的整条链路，包括NeuroVLA在内的多个核心模型全部开源，训练框架被压缩到单张消费级显卡可以跑，评测体系也接入了行业主流的Benchmark标准。

郭彦东在台上说，以前开源是给你一个工具，现在是给你一个全家桶。

最好的模型、最趁手的训练工具、最标准的评测，一次配齐。

我注意到一个细节。

演讲快结束的时候，郭彦东没有花太多时间讲融资或者估值，他讲的是“智魔方”，他们做的一个机器人商用舱体。

放进去能卖咖啡、卖冰淇淋、卖冰糖葫芦，已经铺到了江苏、上海、浙江、广东、贵州等多个省份。

他特别说，贵州那边的机器人是在帮当地向全球推广抹茶业务。

这个细节有点意思，因为它说明这家公司在做一件相对稀缺的事：让模型真的在真实场景里持续干活，而不是停在实验室的演示视频里。

郭彦东最后的收尾是这样的：没有AI，机器只是冷冰冰的硬件；没有硬件，AI只是一串代码；但两者都有，没有真实场景，机器人还是实验室的demo。

我觉得这句话，是在那个“VLA终结了吗”的问题上，最务实的一个落点。

其实很多真正有生命力的东西，不会突然消失，它会换一种结构，带着新的能力，继续往前走。

发布于广东