新智元 24-10-21 15:03
微博认证:新智元官方微博

2024年10月21日,智源研究院正式发布原生多模态世界模型Emu3。该模型只基于下一个token预测,无需扩散模型或组合方法,即可完成文本、图像、视频三种模态数据的理解和生成。

Emu3在图像生成、视频生成、视觉语言理解等任务中超过了SDXL、LLaVA、OpenSora等知名开源模型,但是无需扩散模型、CLIP视觉编码器、预训练的LLM等技术,只需要预测下一个token。

Emu3生成和理解一体的预训练模型以及相应的SFT训练代码,已完全开源~

代码:http://t.cn/A6EtkCjR

项目页面:http://t.cn/A6nh0JnX

模型:http://t.cn/A6EtkCjE

文章:http://t.cn/A6nh0Jni