多模态训练世界模型

有观点认为，相比像素、体素数据自带的复杂冗余与噪声，文本模态能提供更纯粹的语义基础，因此主张采用多模态混合训练方案：充分利用海量互联网文本、图像与视频数据，搭配仿真数据集和真实场景采集数据，并借鉴自动驾驶领域的研发思路，以此构建稳定性更强的世界模型；目前暂无其他对立或补充观点。#一分钟精选视频扶持计划##科技先锋官# http://t.cn/AXS40AHo

发布于福建