AIGCLINK 26-01-06 10:20
微博认证:AI博主

上海人工智能实验室把【InternVLA-A1】开源了,一款视觉-语言-动作端到端的统一模型

它把看懂、听懂、生成动作统一在了一个模型里,主打自然语言提示下的零示教通用抓取

比如说,“把桌上的笔放进笔筒”,它能看懂场景并执行,无需提前写死坐标或示教

解决传统“感知-行动”导致的信息在模块间传递时可能出现丢失或产生误差的问题

支持同时处理来自摄像头的图像数据和文本指令,实现多模态感知和理解

github:http://t.cn/AXbJhNiz
模型:http://t.cn/AXbJhNiZ

#InternVLAA1##具身智能##VLA#

发布于 山西