Jim Fan(NVIDA的AI科学家)宣布将发布VIMA,一款连接了机械臂的语言模型(LLM)🦾。它可以接收多模态的指令:文字、图片、视频,或者任何组合。
VIMA是一款连接了机械臂的语言模型(LLM)🦾。它可以接收多模态的指令:文字、图片、视频,或者任何组合。
你可以告诉它"把桌子布置成<图片>的样子",或者"模仿这个<视频>的动作"。
你甚至可以在上下文中教给它新的视觉概念:"这是一个wug <图片>,这是一个blicket <图片>。现在把红色的wug放在绿色的blicket上。"
所有内容都开源:代码、预训练模型、数据集和物理模拟基准。没有付费墙,不用填写表格。
将机器人和GPT整合,相当于让机器人有了大脑!
- 项目首页: vimalabs.github.io
- Arxiv: http://t.cn/A6objBIt
- ICML poster page: http://t.cn/A60xBn3b
- Github repo (MIT license): github.com/vimalabs/VIMA http://t.cn/A60xBn1X
