宝玉xp
26-06-17 07:32 微博认证:前微软Asp.Net最有价值专家 2025微博年度新知博主 科技博主

NVIDIA GEAR 实验室发布了 ENPIRE,一套让 AI 编程 agent 自主操控真实机器人做实验的系统。是在真实物理世界里跑,让 AI 自己重置场景、跑实验、判断成败、查论文、改代码、再来一轮,人类只需要早上起来看报告就行。

ENPIRE 的全称是 Agentic Robot Policy Self-Improvement in the Real World,由 NVIDIA GEAR 实验室联合 CMU、UC Berkeley 共同开发。Jim Fan 是 GEAR 实验室的联合负责人,他把这个方向叫 AutoResearch,意思是让 AI 来做科研。之前这个概念只在纯数字环境里跑通过,ENPIRE 是第一次把它搬到了物理世界。

系统的运作方式是这样的:给一组 AI 编程 agent 分配一队机器人、一批 GPU 和足够的 token 预算,然后设定一个目标,比如“尽快完成这个任务,让机器人保持忙碌但别出事”。接下来人就可以走了。

agent 会自动做四件事:

1. 搭建环境:包括自动重置场景和自动判断成败
2. 改进操控策略:从启发式学习到行为克隆到强化学习都会尝试
3. 在真实机器人上跑实验收集数据
4. 分析失败原因并迭代改进代码

整个循环完全自主,不需要人参与。

ENPIRE 测试了几个相当刁钻的操作任务:把细小的 pin 脚精确插入盒子、穿扎带、用剪刀剪扎带、把 GPU 插到主板上。这些都是需要高精度灵巧操作的任务,不是简单的抓取搬运。最终 agent 自主训练出的策略达到了 99% 的成功率(pass@8 标准)。

项目同时测试了三款编程 agent:
1. OpenAI 的 Codex(搭配 GPT-5.5)
2. Anthropic 的 Claude Code(搭配 Opus 4.7)
3. 月之暗面的 Kimi Code(搭配 Kimi K2.6)。

三家的 agent 都能跑通整个流程,但在不同任务上的研究进展速度有差异。

一个比较有意思的发现是他们所谓的“物理 scaling law”:8 台机器人并行探索,比 1 台或 4 台的研究推进速度快得多。

更多机器人意味着更多并行实验,agent 之间还能互相参考对方的成功策略,类似于多个研究者同时攻关同一个问题。不过扩大规模也有代价,token 消耗会显著增加,而且 agent 花在总结同伴进展上的时间会变多,机器人的实际利用率反而下降。

所有代码会开源,让你在家也能搭一个自运行的机器人实验室,但你至少得有一队机器人臂和一批 GPU。开源本身的意义在于,其他机器人实验室可以直接复用这套 agent 驱动的实验框架,省掉大量人工盯实验的时间。

项目网站:http://t.cn/AXalNy3d http://t.cn/AXalNfDH

发布于 美国