麻省理工科技评论
23-09-19 17:08 微博认证:《麻省理工科技评论》杂志官方微博

#人工智能学习框架# 【港中大团队设计多模态学习框架Meta-Transformer,实现同时处理12种模态统一学习】

#香港中文大学# 与上海人工智能实验室团队合作,在多模态感知方向开辟了新的研究思路。他们设计了一款#多模态学习统一框架# Meta-Transformer,首次能够在没有配对数据的情况下,实现 12 种模态统一学习。

它解决了不同模态数据的问题,包括如何使用统一的框架处理自然语言、#2D图像# 、3D 点云、音频、高光谱图、时序数据等。该框架将各模态的原始输入数据,转换为共享的 token 空间,然后使用拥有冻结参数的编码器,提取输入数据的高级语义特征。

该研究相对于传统的单模态感知工作实现了重大突破,对天然需要多个模态联合处理的领域有重要的价值。Meta-Transformer 最重要的意义在于,让人们看到了通用感知智能的曙光。一方面,Meta-Transformer 通过统一的编码方式,能够以同一套参数处理多达 12 种模态,有效地说明了深度神经网络在感知方面具备通向类人智能的潜力。

另一方面,Meta-Transformer 摆脱了目前多模态学习领域中,不再依赖于内容相关的配对数据的问题,这让模型训练更加灵活及泛化,能够最大程度地发挥出多模态、多数据训练的潜力。

不久前,相关论文以《元转换器:多模态学习的统一框架》(Meta-Transformer: A Unified Framework for Multimodal Learning)为题发表在 arXiv[1]。论文第一作者为香港中文大学博士研究生张懿元、龚凯雄,合著者包括香港中文大学李鸿升教授与上海人工智能实验室的欧阳万里教授和乔宇教授,共同通讯作者为香港中文大学岳翔宇教授和上海人工智能实验室张凯鹏研究员。

岳翔宇表示,人脑倾向于接受多种信息来源来提高感知或决策的准确率,不同信息来源对应数据里的多种模态。Meta-Transformer 促进了深度网络的多模态感知,也使得神经网络的处理流程离人脑处理多信息源的流程更近一步。

戳链接查看详情:http://t.cn/A6OWU2yi