MemeInformation
26-04-30 10:02 微博认证:AI博主

在一个到处都是“颠覆”和“终结”的行业里,亲眼看到有人站上台,说“你们说错了”,其实挺解气的。

4月23日,我在2026 POWER Robot未来大会现场,听完了智平方创始人兼CEO郭彦东的主论坛开场演讲。

他讲的主题很大,叫AGI迈进物理世界,通用智能机器人开启第四代智能终端时代。

但真正让我坐直身体的,反而是他回应的一个具体问题:VLA终结了吗?

我坐在台下,听他开口说:并没有结束,而在持续变强。

VLA,全称视觉-语言-行动,是目前驱动具身智能机器人的核心架构。

过去一年,随着“世界模型”等概念接连涌现,一部分人开始唱衰它,认为新范式正在取而代之。

郭彦东不这么看,他用第一性原理往下推:任何在真实世界里执行任务的智能系统,必须具备三样东西。

对环境的感知、对逻辑的推理、对行为的控制。

这三件事不会因为范式更迭而消失。

Vision、Language、Action,组织方式在变,内核的骨架没有动过。

所谓世界模型,不是颠覆者,是加持者。

这个判断,让我想了一会儿。

郭彦东的PPT画了一张时间线,把VLA的演化分成三代。

最初是最朴素的端到端对齐,让机器人看到环境、理解指令、输出动作。

第二代开始引入世界模型,机器人在行动之前先在脑子里“预演”一遍,预测可能的结果。

第三代,也是智平方这次在大会上首次对外披露的方向,叫做“类脑VLA”。

这个词听起来有点玄,但他解释得很具体:人的大脑、小脑、脊髓是分层协同运作的,大脑负责推理,小脑管协调,脊髓处理反射。

传统的机器人架构把小脑和脊髓只用来控制行走,郭彦东的团队把它们也拉进了操作任务里,让机器人在执行复杂动作时拥有毫秒级的自适应能力。

不是等大脑算完再动,而是像人一样,有一套接近生物反射的快速响应机制。

他们把这个模型命名为NeuroVLA,这次是全球首次公开。

在技术发布的节奏上,智平方走得不算慢。

2024年6月,他们推出了国内创业公司里第一个VLA大模型,规模是谷歌同类产品的二十分之一,性能提升超过80%。

2025年6月,推出了快慢系统深度融合的新一代VLA架构,性能超过国际标杆Pi0三成。

2025年11月,融合世界模型的VLA架构Video2Act发布,实现“先预测、后执行”。

这次的类脑架构,是第四个节点。

三年之内,每隔半年多就有一次代际跳跃,放在这个领域不算常见。

但郭彦东显然不满足于只做一家技术公司。

这次他们同步开放的,是一个叫做AlphaBrain Platform的开源社区。

对他们自己的定义是“全球首个一站式、开箱即用的具身智能模型开源社区”。

这个平台打通的是从数据到训练到评测的整条链路,包括NeuroVLA在内的多个核心模型全部开源,训练框架被压缩到单张消费级显卡可以跑,评测体系也接入了行业主流的Benchmark标准。

郭彦东在台上说,以前开源是给你一个工具,现在是给你一个全家桶。

最好的模型、最趁手的训练工具、最标准的评测,一次配齐。

我注意到一个细节。

演讲快结束的时候,郭彦东没有花太多时间讲融资或者估值,他讲的是“智魔方”,他们做的一个机器人商用舱体。

放进去能卖咖啡、卖冰淇淋、卖冰糖葫芦,已经铺到了江苏、上海、浙江、广东、贵州等多个省份。

他特别说,贵州那边的机器人是在帮当地向全球推广抹茶业务。

这个细节有点意思,因为它说明这家公司在做一件相对稀缺的事:让模型真的在真实场景里持续干活,而不是停在实验室的演示视频里。

郭彦东最后的收尾是这样的:没有AI,机器只是冷冰冰的硬件;没有硬件,AI只是一串代码;但两者都有,没有真实场景,机器人还是实验室的demo。

我觉得这句话,是在那个“VLA终结了吗”的问题上,最务实的一个落点。

其实很多真正有生命力的东西,不会突然消失,它会换一种结构,带着新的能力,继续往前走。

发布于 广东