是煦煦哟 26-01-23 18:34
微博认证:科技博主 超话小主持人(科技超话)

微软研究院1月21日推出机器人专用大模型Rho-alpha,这款基于Phi视觉-语言模型家族的“VLA+”模型,一举打破传统视觉-语言-行动系统的技术桎梏,大幅加快物理AI的落地节奏。

其核心突破是把触觉感知深度融入模型架构,借助六维力传感器捕捉三维力与力矩信息,实现视觉、语言、触觉的跨模态融合,让机器人双手协同操作时,能依据接触压力、扭转力实时微调动作,彻底攻克精密操作的技术难题。

针对机器人领域高质量训练数据稀缺的行业痛点,Rho-alpha创新采用真机演示、仿真任务与大规模视觉问答数据结合的混合训练模式,依托Azure基础设施生成物理精准的合成数据,有效弥补了人工遥操作采集数据的成本高、场景受限等问题。

同时该模型搭建起“感知-行动-反馈”完整闭环,可将人类干预的纠正信息转化为学习样本,实现部署后的持续进化,在非结构化环境中拥有更强的动态适应性。

目前Rho-alpha已在双臂及类人机器人平台完成测试,微软也已正式启动早期访问计划,后续还将对外披露更多力觉感知、跨模态融合相关的核心技术#科技先锋官# http://t.cn/AXqPJaPJ

发布于 福建