星河频率
26-06-30 18:10 微博认证:科技博主

自变量机器人发布跨模态具身动作分词器 X-Tokenizer,将 VLA 中的动作离散化从单一的“压缩-重建”问题,重新定义为“多模态推理与动作之间的语义接口学习”问题。

动作分词器决定了拆分出的动作 Token 是否具有语义,是否能加速预训练模型的收敛,从而最终影响了 VLA 模型输出连续动作的性能。这是自变量机器人的最新发现。

具身智能的 VLA 模型(视觉-语言-动作模型)是将预训练的 VLM 模型(视觉语言模型)与动作专家(Action Expert)连接起来,前者接收图像和语言指令,输出隐藏状态;后者则将隐藏状态转化为机器人可以执行的连续动作指令。但两者的表示方法存在不匹配:VLM 模型输出离散表示,而机器人需要接收连续指令。在预训练时,需要利用动作分词器(Action Tokenizer)来将连续动作拆分压缩为离散表示。

对此,自变量机器人提出一种新的轻量级、跨模态具身动作分词器 X-Tokenizer。它采用“编码器-语义残差量化(SRQ)-解码器”架构,用 SRQ 替换了传统的标准残差向量量化(RVQ),在这一层分离出动作意图,并在涵盖 17 个机械臂系列的 240 万条轨迹(包含 20 亿动作帧)上进行了预训练。

#具身智能##机器人#

发布于 广东