腾讯Robotics X开源HyVLA-0.5具身模型，真机任务成功率近100% 6月15日，腾讯Robotics X实验室联合福田实验室、混元团队，正式开源具身智能模型HyVLA-0.5。项目主页、代码、数据集三件套全部上线GitHub和HuggingFace。这不是又一个"展台Demo模型"——它在四项真实双臂任务上经过三轮强化后训练，成

腾讯Robotics X开源HyVLA-0.5具身模型，真机任务成功率近100%

6月15日，腾讯Robotics X实验室联合福田实验室、混元团队，正式开源具身智能模型HyVLA-0.5。项目主页、代码、数据集三件套全部上线GitHub和HuggingFace。

这不是又一个"展台Demo模型"——它在四项真实双臂任务上经过三轮强化后训练，成功率推到了接近100%的天花板，已进入工业产线实测。

HyVLA-0.5真正颠覆行业认知的地方，不是"模型有多大"，而是数据怎么来。

腾讯Robotics X自己攒了一套"亚毫米级指套式UMI数据采集装置"（已申请专利），操作员戴上指套做一遍任务，外部光学动捕系统以亚毫米精度捕捉6自由度手部轨迹，同时记录第一视角视觉——一次演示，连"力觉"信息都顺便采了。

靠这套系统，团队攒出了Hy-UMI-10K数据集：超过1万小时、70类任务、超100万条episode，覆盖厨房、洗衣、收纳、清洁、工具使用、柔性物体操作。核心卖点是：在监督训练阶段，完全不需要遥操作数据，模型就能在多台不同形态的真实机器人上跑出高成功率。

模型架构上，HyVLA-0.5走的是MoT（混合Transformer）路线：视觉语言理解和动作生成被拆成双塔结构，共享联合注意力机制，中间夹一个基于流匹配的行动专家模块，直接输出连续动作轨迹。

配套的紧凑记忆编码器把多帧多视角历史压进当前帧表示，加了短时记忆但几乎不涨token数；增量式动作块表示则把动作预测绑定到"相对末端执行器位移"而非特定关节结构上——这是跨本体迁移的底层基础。

模型训完后，腾讯还搞了一套叫FlowPRO的强化后训练，这才是真机成功率推到近100%的关键。思路很朴素：真机执行时，人类在旁边看着，出错了就"回滚+纠正"，把失败轨迹和成功纠正轨迹配对，喂回去做离线偏好优化。

三轮迭代，"多项任务成功率推进到接近天花板水平"——在RoboTwin 2.0仿真基准上，HyVLA-0.5也以90.9%（简单设置）和90.1%（随机化设置）的成绩，稳坐开源VLA模型的SOTA。

真机部署上腾讯也没留坑：异步推理与执行框架把模型前向推理和机器人伺服控制解耦，动作指令缓冲区在两条线程之间跑流水；延迟感知的三次贝塞尔轨迹拼接专门修了动作块策略的边界不连续——不用额外训练控制器就能跑出平滑高频执行。

已经验证的平台包括Dobot X-Trainer、JAKA K1、Astribot S1、Unitree G1，从固定基座双臂到人形机器人全兼容。

配套的RoboFusion本体互连技术把传统机器人35束线缆砍到3束，消除32条独立通道的布线负担；整体打包进Tairos具身智能开放平台，模块化输出大模型开发工具和数据服务。

腾讯首席科学家、Robotics X主任张正友博士带队，摆明了要把"机器人操作系统"这条赛道从头吃到尾。

具身智能行业最大的痛是"数据贵、训练慢、换台机器就得重来"，HyVLA-0.5用一副指套+1万小时人类示教+三代强化后训练，把这三件事一起解决了——而且全开源。

发布于北京