小鹏机器人动作生成技术

#小鹏机器人会走猫步太像人了# 前天的workshop比较可惜，我没有去成，据说干货很多。但是就“猫步”这件事，从现场的信息来说，它讲的是“小鹏IRON创新采用生成式模仿学习方法，不同于传统规则或强化学习的局限，摆脱“录像带式”的单一动作模式。”

什么意思呢？实际上我之前在http://t.cn/AXAWKdPn 是提过的，小鹏关于这部分风格化的运动生成，是写在新专利（CN120755870A），“人形机器人的姿势生成方法、装置、机器人介质及产品”里的，当然了，看上去是讲“姿势生成”，其实讲的是“让机器如何拥有身体的语言”。

我们再提一次---它可以实现什么呢？
很多人形机器人在待机时，会显得非常僵硬，断电后和雕塑差不多。
小鹏的模型可以在输入“空音频”时，依然生成动作，比如轻微晃动、活动手指、微微转头。通过“静音”区域映射为可学习参数实现的，模型会把它理解为“非语音状态”的自然运动。这种闲置状态的“身体呼吸感”，是过去机器人系统完全没有的。

过去的动作生成是“执行已有的逻辑”，现在更像是你打游戏时的“随机副本生成”。
机器从“模仿人”开始，逐渐可以变成“和真人一样表达自己”。你说一句“谢谢”，它可能点头、也可能微微举手，不会是编程那样用既定的、写死的动作来回应你，而是根据语音节奏和语义随机生成的一种“合理动作”，来反馈你，而这种不确定性，就是让你感觉自然的内核。

原因在于，小鹏把语音作为一个“驱动动作”的信号源。
系统会先把语音分解成两层信息：一层是梅尔频谱，也就是语音的声学形态，它反映的是节奏、停顿、能量变化；另一层是HuBERT语义特征，这是一种自监督语音模型，能理解语音里的语义和情绪，比如“肯定”“犹豫”“疑问”等微妙意图。然后，把这两种特征再加上一个动作标记，比如表达风格、或者特定动作类型，一起输入到一个扩散模型里。

扩散模型不是传统意义上“生成动作”的神经网络，它更像一个“想象引擎”：它从随机噪声开始，一步步去噪还原出符合语义的动作轨迹。每次去噪的路径都不一样，所以输出的动作永远不完全相同。换句话说，机器人会在合理范围内“自己决定怎么动”。

扩散模型内部，是一套Transformer网络。
语音特征和时间步交织，噪声矩阵对应机器人的各个关节（大约70个自由度）。它会在每个时间步反复去噪，输出的不是“动或不动”，而是一串连续的角度、速度和力矩数据。这保证了生成的动作不只是合理的，更是物理上可执行的。模型里还有一个“风格化层”，用来控制整体表达的性格，比如让动作更稳重、活泼或礼貌。

从系统层面看，这是一种语义到运动的翻译机制。
在过去的机器人控制里，输入是力矩、角度或轨迹；而现在，输入是语音语义、节奏、情感标签。模型在内部完成“语义编译”，输出动作。这意味着“从语言到表情，再到身体动作”可以成为一个统一的路径，机器人不再仅仅依靠模块的拼接，而可以由同一个“生成模型”进行驱动了。

因为身体机构那么多的自由度，你真去讲常规的控制，越精细的动作，要求算法越复杂，算法越复杂，你就把自己套进去了。唯独AI，创成式的存在，你能解决这些难问题，包括风格化的课题。

我再把总结过的事情，再说一次。
相比于机器人，小鹏更像在做AI的“身体容器”。

发布于广东