上海人工智能实验室把【InternVLA-A1】开源了,一款视觉-语言-动作端到端的统一模型
它把看懂、听懂、生成动作统一在了一个模型里,主打自然语言提示下的零示教通用抓取
比如说,“把桌上的笔放进笔筒”,它能看懂场景并执行,无需提前写死坐标或示教
解决传统“感知-行动”导致的信息在模块间传递时可能出现丢失或产生误差的问题
支持同时处理来自摄像头的图像数据和文本指令,实现多模态感知和理解
github:http://t.cn/AXbJhNiz
模型:http://t.cn/AXbJhNiZ
#InternVLAA1##具身智能##VLA#
发布于 山西
