哲伦班长 25-06-11 18:48
微博认证:AI博主

今天上午和@张哲学Lab 聊天的时候,聊到一个关于机器人的AI模型概念,刚好自己整理了一下并分享:

个人的大小脑能力有限,人类通过语言形成知识,成就了超级大脑,并存在于书本和互联网。

机器人相似,有三类AI模型,共同存在:
超级大脑:【知识】,例如做饭时【在小红书查菜谱】;
机器人大脑:【技能】,例如做饭时【切配、颠勺、放调料】;
机器人小脑:【运动】,例如做饭时【胳膊的平衡、双腿站立】;

大家看到的机器人跑步、跳舞、运动,主要是【运动】,这里的大部分动作都不需要机器人有视觉能力,只要做动作,或者根据力反馈连续做动作就行。
从2023年开始,机器人主流通过强化学习进行训练,反应要求特别快,计算频率高【≈50Hz】;

驾驶、移动、搬运是很典型的【技能】,这里必须具备【感知环境——理解事物——及时反馈】的智能闭环。
从2023年开始,模仿学习的自动驾驶端到端模型带来显著的能力提升,计算频率较高,【≈5Hz】(开车这类反应要求特别高的任务,会达到20Hz);

把大象放入冰箱需要3步,炒一盘菜需要10步,大扫除一个房间需要100步,拆解任务是【知识】,需要理解能力。
从2022年12月GPT 3.5开始,大语言模型就显现出了强理解能力,大语言模型(LLM)可以极好地理解文字,视觉语言模型(VLM)可以理解图像,文字和图像都是互联网的主要数据。
到机器人则出现了视觉语言动作模型(VLA),需要对物理世界的理解,对“牛顿”的理解,惯性、加速度、作用力反作用力、重力,这是目前行业的一大挑战。计算频率要求较低【≈1Hz】,可以调用云端的超级算力、超级模型来给产品赋能。

【运动】、【技能】、【知识】,三类AI模型会长期共同存在,它们计算频率要求不同、算力要求不同,应对不同的场景,产品化的方式也不同。

发布于 北京