一个模型搞定视频+音频+口型!
你看到的这个就是 LTX 刚刚发布的 LTX 2 开放权重大模型, 这个模型可以文生视频或者图生视频, 这个模型最大的特点是在保证了画质和一致性的同时, 可以生成音频! 而且音频和口型完全适配! 并且说话人神态也非常棒! 模型大小是 19B, 相当可用! 演示视频是我用 HuggingFace Zero GPU 生成的 demo, 10秒视频大概需要5分钟左右生成时间.
我测试目前来看最大的优点就是口型和声音生成得非常好, 并且一致性很高. 指定人物使用什么样的银色就能稳定生成. 当然模型也有不足之处, 主要是还是偶尔能看到模型生成人物皮肤的那种油腻感. 当然官方的 pro 版本在这点上处理的更好, 并且 pro 版本支持4K分辨率输出, 当然 pro 版本是没有开源的.
#ai生活指南# #ai创造营# http://t.cn/AXbSRfsy
发布于 北京
