上海人工智能实验室开源InternVLA-A1

上海人工智能实验室把【InternVLA-A1】开源了，一款视觉-语言-动作端到端的统一模型

它把看懂、听懂、生成动作统一在了一个模型里，主打自然语言提示下的零示教通用抓取

比如说，“把桌上的笔放进笔筒”，它能看懂场景并执行，无需提前写死坐标或示教

解决传统“感知-行动”导致的信息在模块间传递时可能出现丢失或产生误差的问题

支持同时处理来自摄像头的图像数据和文本指令，实现多模态感知和理解

github：http://t.cn/AXbJhNiz
模型：http://t.cn/AXbJhNiZ

#InternVLAA1##具身智能##VLA#

发布于山西