GEN-1模型成功率跃升

【GEN-1 模型：99% 参数从零训练，机器人任务成功率从 64% 跃至 99%】

快速阅读：Generalist AI 发布了 GEN-1 模型，通过从零开始训练 99% 的参数，实现了机器人任务成功率从 64% 到 99% 的跨越。核心在于：与其纠结于模型是属于世界模型还是 VLA，不如关注如何通过规模化物理交互数据来实现真正的“掌握”。

---

当你手里握着足够多的数据和算力时，所谓的“技术流派”其实并不重要。

很多人在讨论机器人领域该走哪条路：是做视觉语言动作模型（VLA），还是做世界模型？这种争论就像在问一个木匠，你应该用凿子还是用刨子。如果你的目标是造出一张完美的桌子，工具的标签只是附属品。GEN-1 的出现打破了这种分类学的执念。它不是在现有的视觉语言模型上硬焊了一个机器人动作层，而是直接从零开始，把 99% 的参数重新训练了一遍。

这听起来很疯狂，但在足够大规模的数据面前，这种“重写底层”的策略往往能跑赢一切微调方案。

现在的研究氛围很容易陷入一种“想法驱动”的陷阱：追逐最新的方法论，试图在既有的框架里刷出更高的指标。但真正的突破往往来自“目标驱动”。如果我们的目标是让机器人实现零样本（zero-shot）任务执行，那么我们就必须去解决所有挡在路上的障碍，而不是守着某个特定的模型架构不放。

有网友提到，现在的机器人技术面临速度与可靠性的断层。GEN-1 试图通过规模化物理交互数据来打破这个僵局。它不仅在简单任务上的成功率达到了 99%，动作速度更是达到了之前的 3 倍。更重要的是，它展现出了一种“即兴发挥”的能力——当零件滑落或环境变化时，模型能像人类一样自发地通过调整策略来恢复任务。

这种能力不是预设的指令，而是大规模预训练带来的涌现。

当然，随着物理交互数据的增加，曾经被视为“救命稻草”的视觉语言预训练可能会逐渐失去意义。当机器人拥有了足够多的物理经验，它不再需要依靠人类世界的语言逻辑来理解重力或摩擦力。那时候，我们该如何定义对齐？如果模型学会了通过“甩动袋子”来让物体就位，这种行为在某些场景下是智能，在另一些场景下可能是灾难。

随着约束条件的不断消失，我们能走多远？这个问题可能没有标准答案。

generalistai.com/blog/apr-02-2026-GEN-1

发布于北京