Physical Intelligence (π) 发布并开源为机器人 VLA 模型打造的动作分词器（action tokenizer）——FAST，该分词器在 100 万条真实机器人动作序列上进行了训练。为了使用 Transformers 训练来控制机器人，需要把机器人的 action 变成 token，对于粗糙系统可能包含 3-5 个动作，而对于高频灵巧机器人

Physical Intelligence (π) 发布并开源为机器人 VLA 模型打造的动作分词器（action tokenizer）——FAST，该分词器在 100 万条真实机器人动作序列上进行了训练。

为了使用 Transformers 训练来控制机器人，需要把机器人的 action 变成 token，对于粗糙系统可能包含 3-5 个动作，而对于高频灵巧机器人则可能多达 20-50 个动作。

现有的 VLA 模型通常使用简单的离散分箱，其中每个动作步骤的每个维度都用离散的箱子表示。这对于简单行为来说尚可，但对于需要精确和高频控制的更复杂和灵巧的技能来说，这种方法很快就会失效。而扩散或流匹配往往表现更好，但需要更长的时间。

Physical Intelligence 开发的动作分词器 FAST，受到 JPEG 图像等连续压缩方法的启发，能够处理标准基于分箱离散化方法无法应对的高频灵巧任务，并在训练速度上比流匹配或扩散方法快 5 倍的同时，达到相似的灵巧水平。

通过像语言一样用离散的 token 表示动作，FAST 提升了从互联网规模预训练中的迁移能力，并增强了遵循语言指令的能力。并实现了首次在 DROID 数据集上训练策略，仅通过自然语言命令提示，就能在全新环境中零样本执行一系列操作任务。

FAST 的 token 化方法依赖于离散余弦变换（DCT），这是一种常用于信号压缩的技术，例如在 JPEG 或 MP3 编解码器中。通过将 DCT 与字节对编码（BPE）结合，后者是一种常用于训练大型语言模型的压缩算法。两者结合能够将原始动作块压缩成少量密集的动作 token，通常每块 30 到 60 个，比之前的动作 token 化方法压缩了 10 倍。

博文链接：https://www.pi.website/research/fast

发布于北京