智元启动AI发布周

中国机器人行业，正在悄悄发生一件大事。

如果你也想了解具身智能行业现状正在经历什么阶段，那你一定要关注一下智元最近的动作。

4月7日智元启动了AI发布周。

连续一周，每天解锁一个技术方向，从数据、仿真、大模型到感知，最后压轴的是真实工厂落地案例。

发布的顺序，其实也完整复现了一台可用的机器人到底需要什么。
从最底层的数据，到让机器人能在工厂里干活，中间每一步都是上一步的前提，也是下一步的基础。

我把最近智元发布周的内容捋了一遍，发现这件事背后，有个更值得聊的问题。

1
聊这个话题之前，我们要先了解一下具身智能的本质困难。

现在大部分的AI讨论，还停留在大语言模型的层面，核心是处理信息，不需要身体，不需要感知物理空间。

但具身智能要解决的问题完全不同。

比如，你对工厂机器人说，「帮我把这个零件装上去」。
它需要理解你说的是什么，找到零件在哪，判断力度和角度，在抓取过程中实时调整，零件偏了还得自己修正。
整个链条里，有太多地方会出错。

是不是大模型足够强，这些问题就都解决了？
当然不是。
大模型是大脑，但大脑再好，没有高质量训练数据、没有能模拟真实世界的仿真环境、没有精度足够高的硬件，一样什么都干不成。

具身智能是系统工程，而不是单点突破的问题。

2
我去看了一下智元发布的这个开源数据集AGIBOT World 2026，行业里有人把它比作具身智能领域的ImageNet时刻。

具身智能领域目前的处境，有点类似ImageNet出现之前的计算机视觉——数据标准不统一，每家公司各自为政，行业里的积累很难复用。

AGIBOT World开源出来，覆盖五个主要研究方向，采用真实场景采集和仿真数据结合的方式，如果这个数据集真的能成为行业的通用基础，它的意义比智元自己用它训出多好的模型要大得多。

再一个就是模型，说到这不得不提GO-2这个东西。

它是智元发布的新一代VLA大模型，VLA是Vision-Language-Action的缩写，就是视觉、语言、动作三合一。

那这跟普通的多模态大模型有什么本质区别呢？
普通多模态模型的输出是文字或者图像，VLA模型的输出是动作序列，告诉机器人接下来要做什么物理动作。
这个从语言理解到动作生成的跨越，就是具身智能里最难跨的那道坎，行业里叫"语义-运动鸿沟"。
GO-2在LIBERO这个行业标准测试集上的平均成功率达到了98.5%，另一个更复杂版本的测试集上是86.6%。
仿真训练迁移到真实环境的成功率是82.9%，同类测试里同期最优的竞品是77.5%。

这也说明，这个模型不只是在某一个特定场景下表现好，它的泛化能力是真实的，面对训练时没见过的物体材质、没经历过的摆放位置，它依然能很好的完成任务。
3
特别要提一下的是，今天他们还发布了GE-Sim 2.0。

这个系统在几个关键维度上，把世界模型从概念推进到了工具。

第一个维度是响应动作。
之前大多数生成模型并不真正响应动作——它生成的是基于场景的预测视频，跟机器人具体做了什么关系不大。

GE-Sim 2.0能接收机器人的动作信号，然后生成对应的环境变化。
机器人伸手、施力、物体位移，整个物理过程连贯地呈现出来。这是世界模型真正成为训练环境的前提。

第二个维度是时序稳定性。
以前的世界模型推演几秒钟还好，时间一长就开始漂移，生成内容失去连贯性。
GE-Sim 2.0支持分钟级别的稳定推演，这意味着机器人可以在里面完成一个完整任务的全程模拟，而不是一小段一小段地拼。

第三个维度是内置激励模型。
系统能自动评估当前状态离目标有多远，给出奖惩信号，让机器人在模型世界里自己做强化学习。
这意味着训练闭环第一次真正被内嵌进了模型世界本身，不需要人工逐帧标注对错。

这三件事加在一起，才让这个系统从演示工具变成了真正的训练基础设施。

4
智元发布周这七天释放的信号是：具身智能的商业化路径，已经有了一个可以参照的样本。

数据怎么采，仿真怎么做，模型怎么训，怎么迁移到真机，怎么在真实产线上稳定运行，这条链条是跑通的。

当然，这也不意味着一切都解决了。
成本还很高，普通中小制造企业不一定负担得起，长尾场景还有大量没覆盖到的操作，特别是那些高度非结构化的环境。

但有一件事已经发生了：具身智能在行业里的讨论，开始从"理论上是否可行"变成"现在能做到哪些、还差多少"。

这是一个很重要的切换，任何技术的成熟，都要经历从讲故事，到拿数字说话。

而且，这些AI技术都可以在417大会上看到demo，体验到最前沿的物理AI技术成果。如果你对机器人或者具身智能这件事有任何好奇，剩下几天的内容也值得跟一下。

发布于浙江