槐角不甘心 26-03-02 15:14
微博认证:汽车博主

#小米机器人已进入汽车工厂实习#
刚看到小米技术发布的一则动态,小米的人形机器人已经正式进驻汽车工厂开始实习了。

之前虽然知道小米造了这么一台机器人(虽然没有正式发布过)但是其实一直是没有视频做参照,也不知道他的具体大小

这次的视频里面因为有su7作为参考物,大概知道了,是一个一米五到一米六的左右的机器人

虽然还不能叫全尺寸吧,但是确实能叫个人了,这和有些造个一米左右的demo糊弄公众的企业来说还是有本质区别的。

为什么一定要做成人形,又为什么恰好是这个和人类相当的尺寸。

在机器人领域有一个常识,自体重量和尺寸越大,运动控制的精确度和开发难度就会成倍提高。比如之前行业内的一些大型双足机器人,在体型增大后都面临着极高的控制门槛。

既然这么难,为什么大家还要执着于人形。

因为我们现有的整个物理世界,无论是汽车工厂里的操作台,还是手里拿的工具,全都是为人类的体型和交互方式量身定制的。

如果我们把机器人做成方的、圆的,或者是多足的奇形怪状,那就意味着必须为了迎合机器,去重新改造现有的基础设施。这种巨大的耦合成本,是任何成熟的商业体系都无法承受的。

做成人形、大小相似,就是为了能够零成本地和现有的为人类设计的装置去无缝互动。这种一步到位的形态选择,说明这台机器人生来就有着明确的量产落地诉求,而不是一个只用来在展台上炫技的样机。

那么它在工厂里究竟干得怎么样呢。

官方展示的核心工况之一,是给汽车压铸后地板安装自攻螺母。抓取、调整姿态、识别花键、精准对位贴合。

这种工作对于人类学徒来说非常简单,稍微培训一下就能熟练上岗。但为什么对于机器人来说却极其困难。

这里需要厘清一个认知上的差异。很多人觉得自动驾驶很难,但实际上,驾驶任务对认知能力的要求并没有那么高。

自动驾驶本质上是遵循特定交通规则的前提下,对物理特征的理解和预测。系统只需要通过前一帧和后一帧的关系,推算出周围车辆的速度,就能预测它下一帧的位置。然后避免碰撞就行了。

但是机器人不行

而像扫地机器人之所以能快速普及,是因为它几乎只需要解决简单的二维平面运动和避障问题。

但真实的工厂是一个非结构化的三维世界。

机器人在这个世界里,不仅仅是识别出一个障碍物就结束了。它需要从感知到规划再到决策,形成一套完整的空间交互能力。它需要把不规则的东西拿起来,克服磁力拉扯,完成毫米级的精细操作。

为了解决这种复杂的长尾泛化问题,小米引入了VLA视觉语言动作大模型。

为什么要用语言模型来驱动躯干。

因为语言是我们人类认识这个世界最结构化的方法。通过语言,我们试图去解决“是什么”和“为什么”的问题。引入VLA的本质,就是希望通过语言的逻辑,让模型具备和现实物体深度交互的能力。

你把抽象的任务交办给它,它能自主地规划一连串动作去完成。只有进化到这种程度,机器人才算具备了很强的泛用性。

当然,作为人来说,我们获取信息的能力从来不局限于视觉。

真正泛用性极强的终极模型,必然是多模态的。就像小米之前发布过的关于灵巧手的论文,就是通过触觉的输入来感知信息,从而微调抓取的角度。

在工厂的实际流水线上,光照的变化或者机械臂自身的遮挡都会让纯视觉产生盲区。这时候,融合指尖的触觉感知和关节本体信息就成了维持稳定性的必然选择。视觉先打通通路,触觉去夯实执行的底线,这显然也是未来技术演进的明确方向。

把机器人从实验室搬进真实的无灯车间,是一个非常前瞻但也极具挑战的方向。

因为真实的工厂里,没有那么高的容错率。

在实验室或者展台上,机器人打拳也好、跳舞也罢,一时失误没站稳,顶多是姿态不那么好看,不会影响大局。

但是到了流水线上,你必须精准胜任这份工作才能产生经济效益。如果你跟不上最快76秒的生产节拍,或者贴合不到位生产出了不合格的零件,甚至漏掉了几道工序。那这就变成了一个极其严肃的生产事故。

但这条路,企业不得不走。

任何一种新鲜的硬科技事物,在初期都可以靠炒作概念、描绘远景来营造出一片欣欣向荣的景象。但当狂热褪去,最终的落地仍然是要创造真实的价值,去实现商业闭环的。

并不是所有的领域都能像纯软件AI那样,依靠资本长年承受巨额的亏损。

既然造出来了,就必须进工厂,必须产生经济效益。在这个赛道上,谁先真正跑通了严苛的商业落地闭环,谁就真正敲开了通往下一个工业时代的大门。

发布于 内蒙古