灵巧手触觉研究遇挫|李飞飞|jim fan|徐丹飞|机器人灵巧手|vla模型|具身智能

【李飞飞、Jim Fan和徐丹飞联合重磅论文：机器人灵巧手，可能走错了路】

人类不只是用眼睛操控这个世界。

把一张薄卡片插进卡槽、拧开一把锁、从一叠纸杯中分出一个，这些动作之所以对人类毫不费力，靠的不是视觉，而是指尖传回大脑的那一点点压力与滑动信号。然而在机器人领域，触觉长期被当作"锦上添花"的附属模态，真正决定动作的始终是视觉。

过去两年，随着#具身智能# 和 VLA 模型快速发展，机器人的任务开始从"看得见、拿得起"迈向"摸得准、做得细"。从 Physical Intelligence 的 π0，到 NVIDIA 的 GR00T，再到 UC Berkeley 的 EgoScale，越来越多研究开始挑战翻书、插卡、拧灯泡、分纸杯等接触密集型任务。

在一次次的任务中，研究者们开始发现，虽然视觉负责找到物体，但真正决定操作成败的，往往是接触发生后的那几十毫秒。于是，触觉开始重新进入它们的视野，并被尝试引入 Transformer 和 VLA 框架，希望让机器人拥有类似人类指尖的反馈能力。

但当研究者们尝试把触觉传感器接入系统时，一个尴尬的结果发生了：模型不仅没能学会更好的操作，反而更容易出现抓取失误、动作犹豫甚至任务失败。很多时候，触觉不如不加。

戳链接查看详情：http://t.cn/AXoGEoxq