[AI]《ENPIRE: Agentic Robot Policy Self-Improvement in the Real World》W Xiao, J Xie, T Zhang, H Lin… [NVIDIA & CMU] (2026)
在机器人领域,实现真实世界的灵巧操作一直受困于极高的人力成本。过去的方法依赖人类专家手工编写算法、重置实验场景并根据失败日志进行调优,本质原因是缺乏一个能让机器人在物理世界中自主完成“感知-决策-验证-反思”闭环的自动化框架。
本文的核心洞见是:把机器人策略的提升重新看作一个由代码智能体(Coding Agents)驱动的自主科研过程。由此,ENPIRE 框架通过构建自动重置与验证的环境接口,使智能体能够像人类研究员一样,自主查阅文献、修改训练代码、并行调度机器人集群并根据物理反馈迭代算法。
这项工作真正留下的遗产是证明了“物理世界自主科研”的可行性,将灵巧操作的成功率提升至 99% 且无需人工干预。它为后来者打开的新门是利用机器人集群的规模效应加速知识发现,但尚未跨过的门槛是智能体对计算与硬件资源的利用率依然较低,且 token 成本随集群规模呈超线性增长。
arxiv.org/abs/2606.19980 #机器学习# #人工智能# #论文# #AI创造营#
发布于 北京
