现在生成式AI比较多的是用文本来生成内容，比如文本生成图片、音频、视频。CoDi则是可以任意输入文本、图片、音频和视频，并且可以输出任意格式或组合。例如：多种输入（Multiple Conditioning）Text + Audio → ImageText + Image → ImageText + Audio + Image → ImageText + Audio → Vid

现在生成式AI比较多的是用文本来生成内容，比如文本生成图片、音频、视频。

CoDi则是可以任意输入文本、图片、音频和视频，并且可以输出任意格式或组合。

例如：
多种输入（Multiple Conditioning）
Text + Audio → Image
Text + Image → Image
Text + Audio + Image → Image
Text + Audio → Video
Text + Image → Video
Text + Image → Video
Video + Audio → Text
Image + Audio → Audio
Text + Image → Audio
Text → Video + Audio

多个对齐的输出（Multi-Outputs Joint Generation)

Text → Text + Audio + Image
Text + Image → Text + Image

单一输入单一输出（Single-to-Single Generation）

Text → Image
Audio → Image
Image → Video
Image → Audio
Audio → Text
Image → Text

项目首页：http://t.cn/A6NsQKEW
论文：http://t.cn/A6NsQKEO http://t.cn/A6NsQKuy

发布于美国