现在生成式AI比较多的是用文本来生成内容,比如文本生成图片、音频、视频。
CoDi则是可以任意输入文本、图片、音频和视频,并且可以输出任意格式或组合。
例如:
多种输入(Multiple Conditioning)
Text + Audio → Image
Text + Image → Image
Text + Audio + Image → Image
Text + Audio → Video
Text + Image → Video
Text + Image → Video
Video + Audio → Text
Image + Audio → Audio
Text + Image → Audio
Text → Video + Audio
多个对齐的输出(Multi-Outputs Joint Generation)
Text → Text + Audio + Image
Text + Image → Text + Image
单一输入单一输出(Single-to-Single Generation)
Text → Image
Audio → Image
Image → Video
Image → Audio
Audio → Text
Image → Text
项目首页:http://t.cn/A6NsQKEW
论文:http://t.cn/A6NsQKEO http://t.cn/A6NsQKuy
发布于 美国
