微软推出机器人专用大模型

微软研究院1月21日推出机器人专用大模型Rho-alpha，这款基于Phi视觉-语言模型家族的“VLA+”模型，一举打破传统视觉-语言-行动系统的技术桎梏，大幅加快物理AI的落地节奏。

其核心突破是把触觉感知深度融入模型架构，借助六维力传感器捕捉三维力与力矩信息，实现视觉、语言、触觉的跨模态融合，让机器人双手协同操作时，能依据接触压力、扭转力实时微调动作，彻底攻克精密操作的技术难题。

针对机器人领域高质量训练数据稀缺的行业痛点，Rho-alpha创新采用真机演示、仿真任务与大规模视觉问答数据结合的混合训练模式，依托Azure基础设施生成物理精准的合成数据，有效弥补了人工遥操作采集数据的成本高、场景受限等问题。

同时该模型搭建起“感知-行动-反馈”完整闭环，可将人类干预的纠正信息转化为学习样本，实现部署后的持续进化，在非结构化环境中拥有更强的动态适应性。

目前Rho-alpha已在双臂及类人机器人平台完成测试，微软也已正式启动早期访问计划，后续还将对外披露更多力觉感知、跨模态融合相关的核心技术#科技先锋官# http://t.cn/AXqPJaPJ

发布于福建