星河频率
26-01-20 10:53 微博认证:科技博主

智元机器人合伙人、高级副总裁、具身业务部总裁姚卯青团队,发布了一个新的VLA,优于π0和π0.5。

姚卯青团队提出了全新ACoT(Action Chain-of-Thought)-VLA的新型架构,该架构引入动作思维链,并且与VLA相结合,让机器人能够更加精准地执行动作。

论文链接在这里:http://t.cn/AXG8ZYCL

具体而言,团队引入了两个互补组件:显式动作推理器(EAR)和隐式动作推理器(IAR)。

前者提出粗略的参考轨迹作为显式的动作级推理步骤,而后者从多模态输入的内部表示中提取潜在的动作先验,共同构成一个动作认知理论(ACoT),该理论对下游动作头进行条件化,从而实现基于地面模型的策略学习。

实验结果表明,该框架在多个基准测试上取得了最先进的性能表现。在真实世界和仿真环境中进行的大量实验下,基于ACoT-VLA架构的方式具有优越性,在 LIBERO、LIBERO-Plus 和 VLABench 数据集上分别取得了 98.5%、84.1% 和 47.4% 的准确率。

#具身智能##智元机器人#

发布于 广东