凤凰网科技 24-10-28 07:34
微博认证:凤凰网科技频道官方微博

【#字节开发出精准视频AI配音模型# 目标是解决传统配音技术难以同时确保口型同步和个性保留的挑战】
PersonaTalk 主要功能

音频驱动的个性化视觉配音:能够根据输入的音频和参考视频生成同步的视觉配音,不仅让嘴唇动作与音频完美匹配,还能保留说话者的个性特点,比如说话的速度、语调和表情。这让生成的视频更加真实和个性化。

风格感知的唇形同步:PersonaTalk 会在生成唇部动作时将说话者的独特说话风格加入音频特征中,从而让唇形动作不仅仅是机械的同步,而是带有说话者的风格,比如轻松、严肃或激动的语气,让配音更生动。

双重注意力面部渲染:通过“双重注意力”机制,PersonaTalk 能够分别处理唇部和面部的纹理,确保每个细节都能真实呈现,比如牙齿的清晰度、面部轮廓的准确性、肤色和妆容的保留。这样,生成的人脸视频看起来更加自然和细腻。

多样化和一致性生成:在生成视频时,会根据不同的参考帧动态选择合适的画面,这样既能保证视频中的说话者动作一致性,又能在不同场景下展现多样性,比如不同角度、光线和背景的变化。

无需个性化微调的通用框架:可以在不同说话者之间直接应用,不需要额外的个性化调整。它能够适应多种说话者,适合广泛的应用场景,比如新闻播报、虚拟主持人或多语言配音。

多维度评价与优化:PersonaTalk 不仅关注唇形同步的准确性,还从视觉质量和个性保持等多个维度对生成效果进行评估和优化,确保每个生成结果都达到最佳状态。这让它在各种测试中都表现出色,得到用户的好评。(来源:互联网的那点事)