2024年10月21日,智源研究院正式发布原生多模态世界模型Emu3。该模型只基于下一个token预测,无需扩散模型或组合方法,即可完成文本、图像、视频三种模态数据的理解和生成。
Emu3在图像生成、视频生成、视觉语言理解等任务中超过了SDXL、LLaVA、OpenSora等知名开源模型,但是无需扩散模型、CLIP视觉编码器、预训练的LLM等技术,只需要预测下一个token。
Emu3生成和理解一体的预训练模型以及相应的SFT训练代码,已完全开源~
代码:http://t.cn/A6EtkCjR
项目页面:http://t.cn/A6nh0JnX
模型:http://t.cn/A6EtkCjE
文章:http://t.cn/A6nh0Jni
