在一个到处都是“颠覆”和“终结”的行业里,亲眼看到有人站上台,说“你们说错了”,其实挺解气的。
4月23日,我在2026 POWER Robot未来大会现场,听完了智平方创始人兼CEO郭彦东的主论坛开场演讲。
他讲的主题很大,叫AGI迈进物理世界,通用智能机器人开启第四代智能终端时代。
但真正让我坐直身体的,反而是他回应的一个具体问题:VLA终结了吗?
我坐在台下,听他开口说:并没有结束,而在持续变强。
VLA,全称视觉-语言-行动,是目前驱动具身智能机器人的核心架构。
过去一年,随着“世界模型”等概念接连涌现,一部分人开始唱衰它,认为新范式正在取而代之。
郭彦东不这么看,他用第一性原理往下推:任何在真实世界里执行任务的智能系统,必须具备三样东西。
对环境的感知、对逻辑的推理、对行为的控制。
这三件事不会因为范式更迭而消失。
Vision、Language、Action,组织方式在变,内核的骨架没有动过。
所谓世界模型,不是颠覆者,是加持者。
这个判断,让我想了一会儿。
郭彦东的PPT画了一张时间线,把VLA的演化分成三代。
最初是最朴素的端到端对齐,让机器人看到环境、理解指令、输出动作。
第二代开始引入世界模型,机器人在行动之前先在脑子里“预演”一遍,预测可能的结果。
第三代,也是智平方这次在大会上首次对外披露的方向,叫做“类脑VLA”。
这个词听起来有点玄,但他解释得很具体:人的大脑、小脑、脊髓是分层协同运作的,大脑负责推理,小脑管协调,脊髓处理反射。
传统的机器人架构把小脑和脊髓只用来控制行走,郭彦东的团队把它们也拉进了操作任务里,让机器人在执行复杂动作时拥有毫秒级的自适应能力。
不是等大脑算完再动,而是像人一样,有一套接近生物反射的快速响应机制。
他们把这个模型命名为NeuroVLA,这次是全球首次公开。
在技术发布的节奏上,智平方走得不算慢。
2024年6月,他们推出了国内创业公司里第一个VLA大模型,规模是谷歌同类产品的二十分之一,性能提升超过80%。
2025年6月,推出了快慢系统深度融合的新一代VLA架构,性能超过国际标杆Pi0三成。
2025年11月,融合世界模型的VLA架构Video2Act发布,实现“先预测、后执行”。
这次的类脑架构,是第四个节点。
三年之内,每隔半年多就有一次代际跳跃,放在这个领域不算常见。
但郭彦东显然不满足于只做一家技术公司。
这次他们同步开放的,是一个叫做AlphaBrain Platform的开源社区。
对他们自己的定义是“全球首个一站式、开箱即用的具身智能模型开源社区”。
这个平台打通的是从数据到训练到评测的整条链路,包括NeuroVLA在内的多个核心模型全部开源,训练框架被压缩到单张消费级显卡可以跑,评测体系也接入了行业主流的Benchmark标准。
郭彦东在台上说,以前开源是给你一个工具,现在是给你一个全家桶。
最好的模型、最趁手的训练工具、最标准的评测,一次配齐。
我注意到一个细节。
演讲快结束的时候,郭彦东没有花太多时间讲融资或者估值,他讲的是“智魔方”,他们做的一个机器人商用舱体。
放进去能卖咖啡、卖冰淇淋、卖冰糖葫芦,已经铺到了江苏、上海、浙江、广东、贵州等多个省份。
他特别说,贵州那边的机器人是在帮当地向全球推广抹茶业务。
这个细节有点意思,因为它说明这家公司在做一件相对稀缺的事:让模型真的在真实场景里持续干活,而不是停在实验室的演示视频里。
郭彦东最后的收尾是这样的:没有AI,机器只是冷冰冰的硬件;没有硬件,AI只是一串代码;但两者都有,没有真实场景,机器人还是实验室的demo。
我觉得这句话,是在那个“VLA终结了吗”的问题上,最务实的一个落点。
其实很多真正有生命力的东西,不会突然消失,它会换一种结构,带着新的能力,继续往前走。
