蚂蚁集团的具身智能大模型LingBot-VLA,真功夫藏在两万小时的真实机器人数据里。这些数据覆盖了9种主流双臂机器人,研究人员通过VR遥操作、同构臂控制等多种方式,一点一滴记录下抓取、折叠、组装等真实任务。每一个动作都被精细拆解,再经Qwen3-VL模型标注语义——相当于为机器人建立了一套触手可及的“肌肉记忆”。
更让人兴奋的是,数据量从三千小时积累到两万小时,模型表现一路稳步提升,至今还没看到天花板,实实在在地验证了“数据驱动智能”的缩放定律。这背后是一套精巧的脑手协同架构:视觉语言模块和动作专家通过混合Transformer跨层协作,流匹配技术输出柔顺轨迹,再搭配LingBot-Depth的深度感知能力,让机器人对三维空间的把握越来越精准。
工程实现上也暗藏巧思。完全分片数据并行策略配合FlexAttention技术,让训练吞吐飙升至每GPU每秒261个样本,比主流框架快1.5到2.8倍。在GM-100真机测试中,跨三种机器人平台的任务成功率最高提升17.3%,而且仅需80条演示数据就能高效迁移——这些扎实的进展,正为“一脑控多机”的未来铺出一条清晰可行的路。 http://t.cn/AXqHW57L
发布于 福建
