【李飞飞、Jim Fan和徐丹飞联合重磅论文:机器人灵巧手,可能走错了路】
人类不只是用眼睛操控这个世界。
把一张薄卡片插进卡槽、拧开一把锁、从一叠纸杯中分出一个,这些动作之所以对人类毫不费力,靠的不是视觉,而是指尖传回大脑的那一点点压力与滑动信号。然而在机器人领域,触觉长期被当作"锦上添花"的附属模态,真正决定动作的始终是视觉。
过去两年,随着#具身智能# 和 VLA 模型快速发展,机器人的任务开始从"看得见、拿得起"迈向"摸得准、做得细"。从 Physical Intelligence 的 π0,到 NVIDIA 的 GR00T,再到 UC Berkeley 的 EgoScale,越来越多研究开始挑战翻书、插卡、拧灯泡、分纸杯等接触密集型任务。
在一次次的任务中,研究者们开始发现,虽然视觉负责找到物体,但真正决定操作成败的,往往是接触发生后的那几十毫秒。于是,触觉开始重新进入它们的视野,并被尝试引入 Transformer 和 VLA 框架,希望让机器人拥有类似人类指尖的反馈能力。
但当研究者们尝试把触觉传感器接入系统时,一个尴尬的结果发生了:模型不仅没能学会更好的操作,反而更容易出现抓取失误、动作犹豫甚至任务失败。很多时候,触觉不如不加。
戳链接查看详情:http://t.cn/AXoGEoxq
