Emu3 这个架构有点吊啊。#ai# 通过预测下一个词或token的方式来理解和生成文本、图像和视频。只用一个简单的transformer模型就能完成多种任务；支持图片生成、视频生成、视频延长、图片内容识别等任务。主要生成的视频看起来效果很不错，感觉是条可以投入的新路子。项目地址：

Emu3 这个架构有点吊啊。#ai#

通过预测下一个词或token的方式来理解和生成文本、图像和视频。

只用一个简单的transformer模型就能完成多种任务；

支持图片生成、视频生成、视频延长、图片内容识别等任务。

主要生成的视频看起来效果很不错，感觉是条可以投入的新路子。

项目地址：emu.baai.ac.cn/about http://t.cn/A6EtgkNO

发布于北京