【上交团队打造多模态大模型，能精准理解三维空间，可用于具身智能等领域】最近一年来，如何用#多模态大模型# 赋能具身智能研究是个十分火热的话题。然而，主流的多模态大模型聚焦于 2D 视觉理解，这对需要三维空间感知理解能力的具身智能来说是远远不够的。由于无法精准地感知理解三维空间，一些

【上交团队打造多模态大模型，能精准理解三维空间，可用于具身智能等领域】

最近一年来，如何用#多模态大模型# 赋能具身智能研究是个十分火热的话题。然而，主流的多模态大模型聚焦于 2D 视觉理解，这对需要三维空间感知理解能力的具身智能来说是远远不够的。

由于无法精准地感知理解三维空间，一些基于流行的 2D 视觉语言模型构建的具身大模型，局限于完成 high-level 规划任务，而在 manipulation 任务上表现很差。

赵波教授于 8 月份入职#上海交通大学# ，此前，早在 2024 年初该团队产生了让多模态大模型理解三维空间并赋能具身 manipulation 的想法。

考虑到许多机械臂上都配备有深度相机，能够提供精准的深度信息，因此他们计划训练一个面向具身智能的、能够同时理解 RGB+D 信息的#多模态模型# 。

不管是流行的视觉特征提取器还是多模态大语言模型，都没有在深度图上训练过。因此，需要设计合适的深度图接入方式，收集深度图数据用于模型训练。

戳链接查看详情：http://t.cn/A6u26yQs