Emu3 这个架构有点吊啊。#ai#
通过预测下一个词或token的方式来理解和生成文本、图像和视频。
只用一个简单的transformer模型就能完成多种任务;
支持图片生成、视频生成、视频延长、图片内容识别等任务。
主要生成的视频看起来效果很不错,感觉是条可以投入的新路子。
项目地址:emu.baai.ac.cn/about http://t.cn/A6EtgkNO
发布于 北京
Emu3 这个架构有点吊啊。#ai#
通过预测下一个词或token的方式来理解和生成文本、图像和视频。
只用一个简单的transformer模型就能完成多种任务;
支持图片生成、视频生成、视频延长、图片内容识别等任务。
主要生成的视频看起来效果很不错,感觉是条可以投入的新路子。
项目地址:emu.baai.ac.cn/about http://t.cn/A6EtgkNO