有个梨GPT
26-02-21 09:49 微博认证:科技博主

邹老师写了一篇文解释为什么机器人翻跟头这种人看起来觉得很难的东西机器人能做好,但是人能捞面条这种简单的东西对机器人来说很难。

我不赞同文中观点诸如传感器跟不上。

人的非常多的动作,在成年人看起来是小菜一碟的,都是小孩子时学会的,比如把皮球双手抛起来,垂直向上或者向前,都不是天生就会的。幼儿有一个时期专门学这种东西,那个经典的把方形圆形三角形玩具塞到对应的窟窿里也是。

这是人作为生物物种的一个天赋,能够通过后天练习获得控制精密动作的能力,在训练的过程中募集大量的传感器神经和行动器神经和肌肉细胞参与,最终形成新的模式,逐渐调参到实用。而象专业的艺术家和运动员,还能完成更加精细甚至匪夷所思的动作精度。

但是这个过程本身并不是特别神秘,事实上也没有重要证据支持超大规模的传感器神经是绝对必要的。

比如残疾人运动会里失去小腿以下部分肢体的运动员用假肢仍然可以跑的很好,失去的肢体上肯定有大量输入输出神经和肌肉,但是具体到跑步和平衡这个问题上,那些不是必要的。

再比如很多上肢残疾的人练就了灵活的脚部动作可以完成很多工作。但是其实触觉灵敏度上,脚皮肤比手皮肤差很远很远,本体也是,所以实际上精密触觉也不是在大多数情况下必要的,号脉是需要的,但吃饭也要拿刀叉筷子的,即使这些物体在手指的皮肤上存在触觉,但用脚使用刀叉筷子的人假以练习仍然可以做的很好,即使脚部皮肤的触觉敏感度比手部差很多很多。

++++

对于机器人和面条的问题。我个人的观点是,现在的机器视觉技术根本上不对。人眼和动物眼都不是固定摄像头,它有大量的肌肉控制瞳孔和眼球的景深与聚焦位置。换句话说并不是识别在先运动在后的。

现在机器人视觉高级的是带景深的特殊相机,差一点是双目,但都是全图像捕捉下来找物体的,然后再做出反应的。生物不是这个模式,生物处理图像没有中央路径的pipeline,只有layer by layer的propogation。

我手机里刚还有一个证明论的图来自Paul Hertz可以借用一下。

图一中左侧的图形是生物的模式,右侧的是计算的模式。实际上右侧的中央汇总然后输出指令还要有很多层,这是实时性差的根本原因。而真正的生物计算在神经层面有两大特征:一个是多对多的广播,另一个是仲裁者模式,在propogation过程中简单的说「否定」阻止信号继续传播,就是「计算」或「决策」。

我不认为人类目前的硅技术在这种图像处理上有技术上的障碍,但是从光学到成像到处理的整个思路不能用高清成像之后语义决策这个办法搞。而是应该考虑分辨率低得多的高冗余结构,例如苍蝇的复眼那种。

精密的运动系统最终成型的模式非常明确不是深度网络,它具有高稳定性,模糊神经网络可以做得很好。但是要做成高实时分布式才行。

人眼的实际分辨率,如果真的拿个成像底片放在视网膜位置,大约只有几十万像素水平,清晰的地方只有黄斑附近几千个传感器神经元位置,其余都是模糊的,靠反复调整聚焦解决,也不是特别快。考虑到做大量精密活动部件有困难,实际上可以做大量孔径和焦距固定的微透镜,直接微加工技术刻蚀,大约10万像素一个成像单元,你想现在一亿像素,就有1000个成像单元,这就比一个超大超清相机,对于运动控制来说给力多了。

ASIC处理器也要配套同样的数量,视神经也是这样工作的。实际上触觉和本体都是这样工作的,绝大多数信号并不会路由到大脑,甚至大部分都不到中枢神经而是在某个很靠前的「哨所」神经节部分就被处理掉了,这种神经节只有几千个神经元的水平。这也是所谓肌肉记忆的生理基础。动作基于模式和动作在先。而不是高层意识在先。

++++

仲裁有一定复杂性,但层数不多。人类看似精密的动作,实际上一秒钟最多最多也就迭代10个cycle差不多了,生物电速度并不快,生物行动器即不精密也不快,能实现精密动作完全是靠海量传播,海量仲裁,浅层,真正意义上的高并发实现的。

我不觉得现在的传感器处理器或者行动器做不到。电机控制都能cycle by cycle的控制比生物传感器快多了。传感器方面则重点是视觉替代。而处理器方面才是真正扯淡的。即使老黄的GPU,比生物计算快几十个数量级了,仍然是内存总线的计算方式,而不是海量处理单元高互联和fifo,这是真正的问题,延迟受不了。但到底差多少还是得具体做这种计算模式模拟的人才能真正回答。看看并行计算编程优化到什么程度,能最大限度模拟生物计算的传播和并发模式,结合控制决策,能驱动机器人的精细动作到什么程度。

捞面条应该说比抓乒乓球的难度是大的,但也没有迹象表明它超出了现在的传感器处理器行动器的能力范围。

发布于 上海