今天上午和@张哲学Lab 聊天的时候，聊到一个关于机器人的AI模型概念，刚好自己整理了一下并分享：个人的大小脑能力有限，人类通过语言形成知识，成就了超级大脑，并存在于书本和互联网。机器人相似，有三类AI模型，共同存在：超级大脑：【知识】，例如做饭时【在小红书查菜谱】；机器人大脑：【

今天上午和@张哲学Lab 聊天的时候，聊到一个关于机器人的AI模型概念，刚好自己整理了一下并分享：

个人的大小脑能力有限，人类通过语言形成知识，成就了超级大脑，并存在于书本和互联网。

机器人相似，有三类AI模型，共同存在：
超级大脑：【知识】，例如做饭时【在小红书查菜谱】；
机器人大脑：【技能】，例如做饭时【切配、颠勺、放调料】；
机器人小脑：【运动】，例如做饭时【胳膊的平衡、双腿站立】；

大家看到的机器人跑步、跳舞、运动，主要是【运动】，这里的大部分动作都不需要机器人有视觉能力，只要做动作，或者根据力反馈连续做动作就行。
从2023年开始，机器人主流通过强化学习进行训练，反应要求特别快，计算频率高【≈50Hz】；

驾驶、移动、搬运是很典型的【技能】，这里必须具备【感知环境——理解事物——及时反馈】的智能闭环。
从2023年开始，模仿学习的自动驾驶端到端模型带来显著的能力提升，计算频率较高，【≈5Hz】（开车这类反应要求特别高的任务，会达到20Hz）；

把大象放入冰箱需要3步，炒一盘菜需要10步，大扫除一个房间需要100步，拆解任务是【知识】，需要理解能力。
从2022年12月GPT 3.5开始，大语言模型就显现出了强理解能力，大语言模型（LLM）可以极好地理解文字，视觉语言模型（VLM）可以理解图像，文字和图像都是互联网的主要数据。
到机器人则出现了视觉语言动作模型（VLA），需要对物理世界的理解，对“牛顿”的理解，惯性、加速度、作用力反作用力、重力，这是目前行业的一大挑战。计算频率要求较低【≈1Hz】，可以调用云端的超级算力、超级模型来给产品赋能。

【运动】、【技能】、【知识】，三类AI模型会长期共同存在，它们计算频率要求不同、算力要求不同，应对不同的场景，产品化的方式也不同。

发布于北京