宝玉xp
23-07-25 00:58 微博认证:前微软Asp.Net最有价值专家 2025微博年度新知博主 科技博主

Jim Fan(NVIDA的AI科学家)宣布将发布VIMA,一款连接了机械臂的语言模型(LLM)🦾。它可以接收多模态的指令:文字、图片、视频,或者任何组合。

VIMA是一款连接了机械臂的语言模型(LLM)🦾。它可以接收多模态的指令:文字、图片、视频,或者任何组合。

你可以告诉它"把桌子布置成<图片>的样子",或者"模仿这个<视频>的动作"。

你甚至可以在上下文中教给它新的视觉概念:"这是一个wug <图片>,这是一个blicket <图片>。现在把红色的wug放在绿色的blicket上。"

所有内容都开源:代码、预训练模型、数据集和物理模拟基准。没有付费墙,不用填写表格。

将机器人和GPT整合,相当于让机器人有了大脑!

- 项目首页: vimalabs.github.io
- Arxiv: http://t.cn/A6objBIt
- ICML poster page: http://t.cn/A60xBn3b
- Github repo (MIT license): github.com/vimalabs/VIMA http://t.cn/A60xBn1X

发布于 美国