Jim Fan（NVIDA的AI科学家）宣布将发布VIMA，一款连接了机械臂的语言模型（LLM）🦾。它可以接收多模态的指令：文字、图片、视频，或者任何组合。VIMA是一款连接了机械臂的语言模型（LLM）🦾。它可以接收多模态的指令：文字、图片、视频，或者任何组合。你可以告诉它"把桌子布置成<图片>的样子"

Jim Fan（NVIDA的AI科学家）宣布将发布VIMA，一款连接了机械臂的语言模型（LLM）🦾。它可以接收多模态的指令：文字、图片、视频，或者任何组合。

VIMA是一款连接了机械臂的语言模型（LLM）🦾。它可以接收多模态的指令：文字、图片、视频，或者任何组合。

你可以告诉它"把桌子布置成<图片>的样子"，或者"模仿这个<视频>的动作"。

你甚至可以在上下文中教给它新的视觉概念："这是一个wug <图片>，这是一个blicket <图片>。现在把红色的wug放在绿色的blicket上。"

所有内容都开源：代码、预训练模型、数据集和物理模拟基准。没有付费墙，不用填写表格。

将机器人和GPT整合，相当于让机器人有了大脑！

- 项目首页: vimalabs.github.io
- Arxiv: http://t.cn/A6objBIt
- ICML poster page: http://t.cn/A60xBn3b
- Github repo (MIT license): github.com/vimalabs/VIMA http://t.cn/A60xBn1X

发布于美国