麻省理工科技评论 24-12-24 16:35
微博认证:《麻省理工科技评论》杂志官方微博

【上交团队打造多模态大模型,能精准理解三维空间,可用于具身智能等领域】

最近一年来,如何用#多模态大模型# 赋能具身智能研究是个十分火热的话题。然而,主流的多模态大模型聚焦于 2D 视觉理解,这对需要三维空间感知理解能力的具身智能来说是远远不够的。

由于无法精准地感知理解三维空间,一些基于流行的 2D 视觉语言模型构建的具身大模型,局限于完成 high-level 规划任务,而在 manipulation 任务上表现很差。

赵波教授于 8 月份入职#上海交通大学# ,此前,早在 2024 年初该团队产生了让多模态大模型理解三维空间并赋能具身 manipulation 的想法。

考虑到许多机械臂上都配备有深度相机,能够提供精准的深度信息,因此他们计划训练一个面向具身智能的、能够同时理解 RGB+D 信息的#多模态模型# 。

不管是流行的视觉特征提取器还是多模态大语言模型,都没有在深度图上训练过。因此,需要设计合适的深度图接入方式,收集深度图数据用于模型训练。

戳链接查看详情:http://t.cn/A6u26yQs