蚂蚁集团LingBot-VLA技术突破

蚂蚁集团的具身智能大模型LingBot-VLA，真功夫藏在两万小时的真实机器人数据里。这些数据覆盖了9种主流双臂机器人，研究人员通过VR遥操作、同构臂控制等多种方式，一点一滴记录下抓取、折叠、组装等真实任务。每一个动作都被精细拆解，再经Qwen3-VL模型标注语义——相当于为机器人建立了一套触手可及的“肌肉记忆”。

更让人兴奋的是，数据量从三千小时积累到两万小时，模型表现一路稳步提升，至今还没看到天花板，实实在在地验证了“数据驱动智能”的缩放定律。这背后是一套精巧的脑手协同架构：视觉语言模块和动作专家通过混合Transformer跨层协作，流匹配技术输出柔顺轨迹，再搭配LingBot-Depth的深度感知能力，让机器人对三维空间的把握越来越精准。

工程实现上也暗藏巧思。完全分片数据并行策略配合FlexAttention技术，让训练吞吐飙升至每GPU每秒261个样本，比主流框架快1.5到2.8倍。在GM-100真机测试中，跨三种机器人平台的任务成功率最高提升17.3%，而且仅需80条演示数据就能高效迁移——这些扎实的进展，正为“一脑控多机”的未来铺出一条清晰可行的路。 http://t.cn/AXqHW57L

发布于福建