【GEN-1 模型:99% 参数从零训练,机器人任务成功率从 64% 跃至 99%】
快速阅读:Generalist AI 发布了 GEN-1 模型,通过从零开始训练 99% 的参数,实现了机器人任务成功率从 64% 到 99% 的跨越。核心在于:与其纠结于模型是属于世界模型还是 VLA,不如关注如何通过规模化物理交互数据来实现真正的“掌握”。
---
当你手里握着足够多的数据和算力时,所谓的“技术流派”其实并不重要。
很多人在讨论机器人领域该走哪条路:是做视觉语言动作模型(VLA),还是做世界模型?这种争论就像在问一个木匠,你应该用凿子还是用刨子。如果你的目标是造出一张完美的桌子,工具的标签只是附属品。GEN-1 的出现打破了这种分类学的执念。它不是在现有的视觉语言模型上硬焊了一个机器人动作层,而是直接从零开始,把 99% 的参数重新训练了一遍。
这听起来很疯狂,但在足够大规模的数据面前,这种“重写底层”的策略往往能跑赢一切微调方案。
现在的研究氛围很容易陷入一种“想法驱动”的陷阱:追逐最新的方法论,试图在既有的框架里刷出更高的指标。但真正的突破往往来自“目标驱动”。如果我们的目标是让机器人实现零样本(zero-shot)任务执行,那么我们就必须去解决所有挡在路上的障碍,而不是守着某个特定的模型架构不放。
有网友提到,现在的机器人技术面临速度与可靠性的断层。GEN-1 试图通过规模化物理交互数据来打破这个僵局。它不仅在简单任务上的成功率达到了 99%,动作速度更是达到了之前的 3 倍。更重要的是,它展现出了一种“即兴发挥”的能力——当零件滑落或环境变化时,模型能像人类一样自发地通过调整策略来恢复任务。
这种能力不是预设的指令,而是大规模预训练带来的涌现。
当然,随着物理交互数据的增加,曾经被视为“救命稻草”的视觉语言预训练可能会逐渐失去意义。当机器人拥有了足够多的物理经验,它不再需要依靠人类世界的语言逻辑来理解重力或摩擦力。那时候,我们该如何定义对齐?如果模型学会了通过“甩动袋子”来让物体就位,这种行为在某些场景下是智能,在另一些场景下可能是灾难。
随着约束条件的不断消失,我们能走多远?这个问题可能没有标准答案。
generalistai.com/blog/apr-02-2026-GEN-1
