i陆三金
25-01-14 17:35 微博认证:AI博主

伯克利的新工作 FuSe:利用视觉、触觉、声音等异构感官数据微调 VLA 模型

该方法结合了两个辅助 loss,以编码高级语义:
1️⃣ 一种对比 loss,用于最大化同一场景视图与语义之间的互信息
2️⃣ 一种语言生成 loss,用于预测跨模态组合的高级语义

数据集方面,收集了 26,866 条轨迹的数据集,涵盖三个具有挑战性的任务,其中机器人使用 Meta Oculus Quest 2 VR 头显进行远程操作。

项目地址:http://t.cn/A6uBuKj7

发布于 北京