宝玉xp 23-05-22 13:19
微博认证:前微软Asp.Net最有价值专家 2025微博年度新知博主 科技博主

现在生成式AI比较多的是用文本来生成内容,比如文本生成图片、音频、视频。

CoDi则是可以任意输入文本、图片、音频和视频,并且可以输出任意格式或组合。

例如:
多种输入(Multiple Conditioning)
Text + Audio → Image
Text + Image → Image
Text + Audio + Image → Image
Text + Audio → Video
Text + Image → Video
Text + Image → Video
Video + Audio → Text
Image + Audio → Audio
Text + Image → Audio
Text → Video + Audio

多个对齐的输出(Multi-Outputs Joint Generation)

Text → Text + Audio + Image
Text + Image → Text + Image

单一输入单一输出(Single-to-Single Generation)

Text → Image
Audio → Image
Image → Video
Image → Audio
Audio → Text
Image → Text

项目首页:http://t.cn/A6NsQKEW
论文:http://t.cn/A6NsQKEO http://t.cn/A6NsQKuy

发布于 美国