小米机器人进汽车工厂实习

#小米机器人已进入汽车工厂实习#
刚看到小米技术发布的一则动态，小米的人形机器人已经正式进驻汽车工厂开始实习了。

之前虽然知道小米造了这么一台机器人（虽然没有正式发布过）但是其实一直是没有视频做参照，也不知道他的具体大小

这次的视频里面因为有su7作为参考物，大概知道了，是一个一米五到一米六的左右的机器人

虽然还不能叫全尺寸吧，但是确实能叫个人了，这和有些造个一米左右的demo糊弄公众的企业来说还是有本质区别的。

为什么一定要做成人形，又为什么恰好是这个和人类相当的尺寸。

在机器人领域有一个常识，自体重量和尺寸越大，运动控制的精确度和开发难度就会成倍提高。比如之前行业内的一些大型双足机器人，在体型增大后都面临着极高的控制门槛。

既然这么难，为什么大家还要执着于人形。

因为我们现有的整个物理世界，无论是汽车工厂里的操作台，还是手里拿的工具，全都是为人类的体型和交互方式量身定制的。

如果我们把机器人做成方的、圆的，或者是多足的奇形怪状，那就意味着必须为了迎合机器，去重新改造现有的基础设施。这种巨大的耦合成本，是任何成熟的商业体系都无法承受的。

做成人形、大小相似，就是为了能够零成本地和现有的为人类设计的装置去无缝互动。这种一步到位的形态选择，说明这台机器人生来就有着明确的量产落地诉求，而不是一个只用来在展台上炫技的样机。

那么它在工厂里究竟干得怎么样呢。

官方展示的核心工况之一，是给汽车压铸后地板安装自攻螺母。抓取、调整姿态、识别花键、精准对位贴合。

这种工作对于人类学徒来说非常简单，稍微培训一下就能熟练上岗。但为什么对于机器人来说却极其困难。

这里需要厘清一个认知上的差异。很多人觉得自动驾驶很难，但实际上，驾驶任务对认知能力的要求并没有那么高。

自动驾驶本质上是遵循特定交通规则的前提下，对物理特征的理解和预测。系统只需要通过前一帧和后一帧的关系，推算出周围车辆的速度，就能预测它下一帧的位置。然后避免碰撞就行了。

但是机器人不行

而像扫地机器人之所以能快速普及，是因为它几乎只需要解决简单的二维平面运动和避障问题。

但真实的工厂是一个非结构化的三维世界。

机器人在这个世界里，不仅仅是识别出一个障碍物就结束了。它需要从感知到规划再到决策，形成一套完整的空间交互能力。它需要把不规则的东西拿起来，克服磁力拉扯，完成毫米级的精细操作。

为了解决这种复杂的长尾泛化问题，小米引入了VLA视觉语言动作大模型。

为什么要用语言模型来驱动躯干。

因为语言是我们人类认识这个世界最结构化的方法。通过语言，我们试图去解决“是什么”和“为什么”的问题。引入VLA的本质，就是希望通过语言的逻辑，让模型具备和现实物体深度交互的能力。

你把抽象的任务交办给它，它能自主地规划一连串动作去完成。只有进化到这种程度，机器人才算具备了很强的泛用性。

当然，作为人来说，我们获取信息的能力从来不局限于视觉。

真正泛用性极强的终极模型，必然是多模态的。就像小米之前发布过的关于灵巧手的论文，就是通过触觉的输入来感知信息，从而微调抓取的角度。

在工厂的实际流水线上，光照的变化或者机械臂自身的遮挡都会让纯视觉产生盲区。这时候，融合指尖的触觉感知和关节本体信息就成了维持稳定性的必然选择。视觉先打通通路，触觉去夯实执行的底线，这显然也是未来技术演进的明确方向。

把机器人从实验室搬进真实的无灯车间，是一个非常前瞻但也极具挑战的方向。

因为真实的工厂里，没有那么高的容错率。

在实验室或者展台上，机器人打拳也好、跳舞也罢，一时失误没站稳，顶多是姿态不那么好看，不会影响大局。

但是到了流水线上，你必须精准胜任这份工作才能产生经济效益。如果你跟不上最快76秒的生产节拍，或者贴合不到位生产出了不合格的零件，甚至漏掉了几道工序。那这就变成了一个极其严肃的生产事故。

但这条路，企业不得不走。

任何一种新鲜的硬科技事物，在初期都可以靠炒作概念、描绘远景来营造出一片欣欣向荣的景象。但当狂热褪去，最终的落地仍然是要创造真实的价值，去实现商业闭环的。

并不是所有的领域都能像纯软件AI那样，依靠资本长年承受巨额的亏损。

既然造出来了，就必须进工厂，必须产生经济效益。在这个赛道上，谁先真正跑通了严苛的商业落地闭环，谁就真正敲开了通往下一个工业时代的大门。

发布于内蒙古