灵初智能发布基于强化学习的端到端具身模型 Psi R0。该模型支持双灵巧手协同进行复杂操作，将多个技能串联混训，生成具有推理能力的智能体，从而完成并闭环长程灵巧操作任务。并且，Psi R0 还可以实现跨物品、跨场景级别的泛化。灵初智能表示，真实世界中，人类生活近乎100%的场景涉及抓握、转动、捏

灵初智能发布基于强化学习的端到端具身模型 Psi R0。该模型支持双灵巧手协同进行复杂操作，将多个技能串联混训，生成具有推理能力的智能体，从而完成并闭环长程灵巧操作任务。并且，Psi R0 还可以实现跨物品、跨场景级别的泛化。

灵初智能表示，真实世界中，人类生活近乎100%的场景涉及抓握、转动、捏取、触摸等操作，而其中超过 90% 的操作属于多技能融合的长程任务。然而在当下具身业界，多局限于 Pick and Place 操作的泛化，一旦任务复杂化、长程化，泛化性和成功率则大大降低，无法兼顾——这也是具身智能只能存在于 demo，迟迟无法在真实场景中落地的核心原因。

灵初智能认为，强化学习是长程灵巧操作实现任务闭环的唯一解。纯模仿学习的泛化能力受限于示范行为的多样性和质量。加之长程任务步骤较多，更容易出现分布漂移问题，使得模仿学习实现长程任务的泛化性能较差，鲁棒性也较弱。

基于强化学习的 Psi R0 模型，使用海量仿真数据高效训练出双手操作的智能体，并通过双向训练框架串联多技能，完成开放环境中的长程任务，具备较强的泛化能力与较高的鲁棒性。这一技能训练框架从物体时空轨迹抽象出关键信息以构建通用目标函数，从而解决奖励函数难设计的问题。在后训练阶段，通过少量高质量真机数据对齐，进一步提升长程任务的成功率。除此之外，双向训练框架中的转移可行性函数发挥着重要作用，它能够微调技能以提高串联的成功率与泛化性，同时赋予模型自主切换技能的能力，使其在遭遇操作失败时能够迅速调整策略，确保高成功率。

长程任务灵巧拥有大量的操作场景，包括工厂产线组装，服务业的拣货打包，家居环境的清洁整理等等。

团队方面，创始人王启斌，联合创始人柴晓杰、陈源培，其他核心初创成员还包括温颖、杨耀东。该公司已于 11 月完成天使轮融资，由高瓴创投和蓝驰创投领投。 http://t.cn/A6uIlxbA

发布于北京