伯克利的新工作 FuSe：利用视觉、触觉、声音等异构感官数据微调 VLA 模型该方法结合了两个辅助 loss，以编码高级语义： 1️⃣ 一种对比 loss，用于最大化同一场景视图与语义之间的互信息 2️⃣ 一种语言生成 loss，用于预测跨模态组合的高级语义数据集方面，收集了 26,866 条轨迹的数据集，涵盖

伯克利的新工作 FuSe：利用视觉、触觉、声音等异构感官数据微调 VLA 模型

该方法结合了两个辅助 loss，以编码高级语义：
1️⃣ 一种对比 loss，用于最大化同一场景视图与语义之间的互信息
2️⃣ 一种语言生成 loss，用于预测跨模态组合的高级语义

数据集方面，收集了 26,866 条轨迹的数据集，涵盖三个具有挑战性的任务，其中机器人使用 Meta Oculus Quest 2 VR 头显进行远程操作。

项目地址：http://t.cn/A6uBuKj7