小米机器人工厂实习

#小米机器人已进入汽车工厂实习#
正好，今天小米发布了机器人在工厂打工实习的视频

那我们就一起来回顾一下之前小米机器人团队关于灵巧手触觉控制的论文吧

当你闭上眼睛把手伸进凌乱的口袋，你能仅凭手指的触感，准确摸出一把钥匙并把它牢牢捏在指尖吗。

绝大多数人都能轻松做到。

这种在我们看来如同喝水般自然的本能，却一直是横亘在机器人学面前的一座高山。

现在的机器人无论是搭载了多昂贵的激光雷达，还是拥有多么强大的视觉语言大模型，一旦要执行精细的物理操作，往往会陷入极度尴尬的境地。

为什么明明眼睛看得很准，手却总是抓不好。

这就触及到了纯视觉感知的一个致命硬伤。当机器人的机械手无限靠近目标物体准备抓取的瞬间，它自己的手掌和手臂会把摄像头的视线遮挡得严严实实。

这种物理上的视觉盲区，让一台造价不菲的机器人在最后一厘米瞬间变成了盲人。

如果仅仅依靠视觉，且没有极其精准的物体三维预设模型，机器人在抓取薄片或者不规则物体时，大概率会抓歪甚至直接把东西捏碎。感知误差、算法近似以及真实环境的动力学干扰层层叠加，最终引出了具身智能领域一个极其棘手的最后难题，也就是抓取执行阶段的致命位姿偏差。

既然眼睛在最后一刻看不到，为什么不让机器人像人类一样去感受呢。

小米机器人团队最新发布的这篇关于TacRefineNet的论文，正是为了打破纯视觉路径依赖而诞生的一项硬核研究。

这项技术的核心逻辑非常纯粹。它彻底抛弃了外部视觉摄像头的辅助，也不需要提前把物体的三维模型输入给系统，而是完全依靠多指指尖的触觉感知，来实现对已知物体在手中任意位姿的毫米级精细调整。

要实现这种闭着眼睛穿针引线般的盲操，这双机械手必须拥有极其敏锐的知觉。

工程师给这只拥有十一个自由度的五指灵巧手，装上了定制的压阻式触觉传感器。每一个指尖上都密布着触觉像素阵列，它们能够极其精准地测量法向接触力，并把这种按压的力度转化为一张张实时的触觉图像。

当上游的视觉算法把手引导到物体附近完成一次粗略的抓取后，视觉的任务就结束了，接下来完全是触觉的秀场。

当灵巧手接触到物体，指尖的触觉图像会瞬间传回大脑。系统会把当前摸到的触觉反馈，和之前人类仅示教过一次的完美目标触觉图像放在一起进行深度的多分支比对。

基于这两种触觉感受的差异，再加上机械手本身的关节本体感觉，神经网络会精准预测出当前的手腕到底偏了多少毫米，转角差了多少度。

随后机械手会微微松开，按照大脑给出的修正指令调整手腕的姿态，然后再次抓紧。这个摸索、松开、微调、再抓紧的过程会快速循环迭代，直到机械手摸到的感觉和预期的完美目标完全一致。

教会一个铁疙瘩拥有这种细腻的手感绝非易事。

如果全靠在真实世界里一遍遍试错，机器人的电机烧坏了也攒不够庞大的训练数据。为了解决数据规模和物理真实性之间的矛盾，研发团队采用了一套极其聪明的虚实结合训练范式。

他们先在高度逼真的物理仿真引擎里搭建了触觉传感器模型，让虚拟机器人在里面没日没夜地抓取，低成本地生成了海量的仿真数据。然后他们让真实的机器人在物理世界里采集了少量的动作真值。

通过在海量仿真数据上进行预训练，再用少量真实数据进行微调，这个模型极其丝滑地跨越了仿真到现实的巨大鸿沟。

为了让机器人不是只会死记硬背某一个特定的抓取姿势，工程师在训练时更是采用了交叉组合的残酷手段。

他们随机把数据集中不同的触觉图像配对在一起，逼着模型去学习任意两个杂乱位姿之间该怎么建立调整映射。这种从底层逼迫模型寻找规律的训练方式，硬生生逼出了这套系统极强的泛化能力。

这套纯触觉精化系统的实战表现究竟有多强悍。

论文里的一系列严苛测试给出了令人震惊的答案。在真实的抓取实验中，这套系统仅靠摸索，就把位置精度控制在了惊人的1.1毫米，姿态误差被压低到了0.016弧度。很多时候只需要两步极其微小的调整就能达到完美的抓取状态。

更绝的是，就算测试人员一直在故意晃动物体，这只手也能像长了眼睛一样，凭借触觉反馈不断调整手腕姿态，死死咬住目标不放。甚至面对那些它从来没见过的、仅仅是形状相似的新物体，它也能在一定维度上展现出盲操的适应能力。

这篇论文其实代表着具身智能领域一个新的实践体系

它用极其扎实的数据证明了，在通往复杂的工厂流水线或者精细的家庭服务的路上，机器人不能只有一双敏锐的眼睛，更需要一双充满知觉的手。纯视觉的方案固然能解决宏观的靠近与避障问题，但在触碰原子世界的最后一厘米，只有真实的物理接触才能带来绝对的确定性。

当然，视觉是一切的基础。

这套触觉精化网络只是为了给机器人加上多模态感知的重要一环。未来统筹在这个感知体系里的，还会有听觉，还会有各个关节细微的运行状态。

当这些感官交错编织在一起的时候，一个类人的、能够真正认识世界、与物理世界无缝交互的具身智能就真正落地了。

发布于内蒙古