伯克利的新工作 FuSe:利用视觉、触觉、声音等异构感官数据微调 VLA 模型
该方法结合了两个辅助 loss,以编码高级语义:
1️⃣ 一种对比 loss,用于最大化同一场景视图与语义之间的互信息
2️⃣ 一种语言生成 loss,用于预测跨模态组合的高级语义
数据集方面,收集了 26,866 条轨迹的数据集,涵盖三个具有挑战性的任务,其中机器人使用 Meta Oculus Quest 2 VR 头显进行远程操作。
项目地址:http://t.cn/A6uBuKj7
发布于 北京
