Physical Intelligence (π) 发布并开源为机器人 VLA 模型打造的动作分词器(action tokenizer)——FAST,该分词器在 100 万条真实机器人动作序列上进行了训练。
为了使用 Transformers 训练来控制机器人,需要把机器人的 action 变成 token,对于粗糙系统可能包含 3-5 个动作,而对于高频灵巧机器人则可能多达 20-50 个动作。
现有的 VLA 模型通常使用简单的离散分箱,其中每个动作步骤的每个维度都用离散的箱子表示。这对于简单行为来说尚可,但对于需要精确和高频控制的更复杂和灵巧的技能来说,这种方法很快就会失效。而扩散或流匹配往往表现更好,但需要更长的时间。
Physical Intelligence 开发的动作分词器 FAST,受到 JPEG 图像等连续压缩方法的启发,能够处理标准基于分箱离散化方法无法应对的高频灵巧任务,并在训练速度上比流匹配或扩散方法快 5 倍的同时,达到相似的灵巧水平。
通过像语言一样用离散的 token 表示动作,FAST 提升了从互联网规模预训练中的迁移能力,并增强了遵循语言指令的能力。并实现了首次在 DROID 数据集上训练策略,仅通过自然语言命令提示,就能在全新环境中零样本执行一系列操作任务。
FAST 的 token 化方法依赖于离散余弦变换(DCT),这是一种常用于信号压缩的技术,例如在 JPEG 或 MP3 编解码器中。通过将 DCT 与字节对编码(BPE)结合,后者是一种常用于训练大型语言模型的压缩算法。两者结合能够将原始动作块压缩成少量密集的动作 token,通常每块 30 到 60 个,比之前的动作 token 化方法压缩了 10 倍。
博文链接:https://www.pi.website/research/fast
