前沿在线FrontiersOnline
26-06-16 15:47 微博认证:前沿在线微博官方账号

腾讯Robotics X开源HyVLA-0.5具身模型,真机任务成功率近100%

6月15日,腾讯Robotics X实验室联合福田实验室、混元团队,正式开源具身智能模型HyVLA-0.5。项目主页、代码、数据集三件套全部上线GitHub和HuggingFace。

这不是又一个"展台Demo模型"——它在四项真实双臂任务上经过三轮强化后训练,成功率推到了接近100%的天花板,已进入工业产线实测。

HyVLA-0.5真正颠覆行业认知的地方,不是"模型有多大",而是数据怎么来。

腾讯Robotics X自己攒了一套"亚毫米级指套式UMI数据采集装置"(已申请专利),操作员戴上指套做一遍任务,外部光学动捕系统以亚毫米精度捕捉6自由度手部轨迹,同时记录第一视角视觉——一次演示,连"力觉"信息都顺便采了。

靠这套系统,团队攒出了Hy-UMI-10K数据集:超过1万小时、70类任务、超100万条episode,覆盖厨房、洗衣、收纳、清洁、工具使用、柔性物体操作。核心卖点是:在监督训练阶段,完全不需要遥操作数据,模型就能在多台不同形态的真实机器人上跑出高成功率。

模型架构上,HyVLA-0.5走的是MoT(混合Transformer)路线:视觉语言理解和动作生成被拆成双塔结构,共享联合注意力机制,中间夹一个基于流匹配的行动专家模块,直接输出连续动作轨迹。

配套的紧凑记忆编码器把多帧多视角历史压进当前帧表示,加了短时记忆但几乎不涨token数;增量式动作块表示则把动作预测绑定到"相对末端执行器位移"而非特定关节结构上——这是跨本体迁移的底层基础。

模型训完后,腾讯还搞了一套叫FlowPRO的强化后训练,这才是真机成功率推到近100%的关键。思路很朴素:真机执行时,人类在旁边看着,出错了就"回滚+纠正",把失败轨迹和成功纠正轨迹配对,喂回去做离线偏好优化。

三轮迭代,"多项任务成功率推进到接近天花板水平"——在RoboTwin 2.0仿真基准上,HyVLA-0.5也以90.9%(简单设置)和90.1%(随机化设置)的成绩,稳坐开源VLA模型的SOTA。

真机部署上腾讯也没留坑:异步推理与执行框架把模型前向推理和机器人伺服控制解耦,动作指令缓冲区在两条线程之间跑流水;延迟感知的三次贝塞尔轨迹拼接专门修了动作块策略的边界不连续——不用额外训练控制器就能跑出平滑高频执行。

已经验证的平台包括Dobot X-Trainer、JAKA K1、Astribot S1、Unitree G1,从固定基座双臂到人形机器人全兼容。

配套的RoboFusion本体互连技术把传统机器人35束线缆砍到3束,消除32条独立通道的布线负担;整体打包进Tairos具身智能开放平台,模块化输出大模型开发工具和数据服务。

腾讯首席科学家、Robotics X主任张正友博士带队,摆明了要把"机器人操作系统"这条赛道从头吃到尾。

具身智能行业最大的痛是"数据贵、训练慢、换台机器就得重来",HyVLA-0.5用一副指套+1万小时人类示教+三代强化后训练,把这三件事一起解决了——而且全开源。

发布于 北京