轰鸣的小跑SVM 25-11-08 16:32
微博认证:汽车达人 微博新知博主 汽车博主

#小鹏机器人会走猫步太像人了# 前天的workshop比较可惜,我没有去成,据说干货很多。但是就“猫步”这件事,从现场的信息来说,它讲的是“小鹏IRON创新采用生成式模仿学习方法,不同于传统规则或强化学习的局限,摆脱“录像带式”的单一动作模式。”

什么意思呢?实际上我之前在http://t.cn/AXAWKdPn 是提过的,小鹏关于这部分风格化的运动生成,是写在新专利(CN120755870A),“人形机器人的姿势生成方法、装置、机器人介质及产品”里的,当然了,看上去是讲“姿势生成”,其实讲的是“让机器如何拥有身体的语言”。

我们再提一次---它可以实现什么呢?
很多人形机器人在待机时,会显得非常僵硬,断电后和雕塑差不多。
小鹏的模型可以在输入“空音频”时,依然生成动作,比如轻微晃动、活动手指、微微转头。通过“静音”区域映射为可学习参数实现的,模型会把它理解为“非语音状态”的自然运动。这种闲置状态的“身体呼吸感”,是过去机器人系统完全没有的。

过去的动作生成是“执行已有的逻辑”,现在更像是你打游戏时的“随机副本生成”。
机器从“模仿人”开始,逐渐可以变成“和真人一样表达自己”。你说一句“谢谢”,它可能点头、也可能微微举手,不会是编程那样用既定的、写死的动作来回应你,而是根据语音节奏和语义随机生成的一种“合理动作”,来反馈你,而这种不确定性,就是让你感觉自然的内核。

原因在于,小鹏把语音作为一个“驱动动作”的信号源。
系统会先把语音分解成两层信息:一层是梅尔频谱,也就是语音的声学形态,它反映的是节奏、停顿、能量变化;另一层是HuBERT语义特征,这是一种自监督语音模型,能理解语音里的语义和情绪,比如“肯定”“犹豫”“疑问”等微妙意图。然后,把这两种特征再加上一个动作标记,比如表达风格、或者特定动作类型,一起输入到一个扩散模型里。

扩散模型不是传统意义上“生成动作”的神经网络,它更像一个“想象引擎”:它从随机噪声开始,一步步去噪还原出符合语义的动作轨迹。每次去噪的路径都不一样,所以输出的动作永远不完全相同。换句话说,机器人会在合理范围内“自己决定怎么动”。

扩散模型内部,是一套Transformer网络。
语音特征和时间步交织,噪声矩阵对应机器人的各个关节(大约70个自由度)。它会在每个时间步反复去噪,输出的不是“动或不动”,而是一串连续的角度、速度和力矩数据。这保证了生成的动作不只是合理的,更是物理上可执行的。模型里还有一个“风格化层”,用来控制整体表达的性格,比如让动作更稳重、活泼或礼貌。

从系统层面看,这是一种语义到运动的翻译机制。
在过去的机器人控制里,输入是力矩、角度或轨迹;而现在,输入是语音语义、节奏、情感标签。模型在内部完成“语义编译”,输出动作。这意味着“从语言到表情,再到身体动作”可以成为一个统一的路径,机器人不再仅仅依靠模块的拼接,而可以由同一个“生成模型”进行驱动了。

因为身体机构那么多的自由度,你真去讲常规的控制,越精细的动作,要求算法越复杂, 算法越复杂,你就把自己套进去了。唯独AI,创成式的存在,你能解决这些难问题,包括风格化的课题。

我再把总结过的事情,再说一次。
相比于机器人,小鹏更像在做AI的“身体容器”。

发布于 广东