IT之家 26-03-24 15:51
微博认证:IT之家(www.ithome.com)官方微博

【阿里通义实验室发布 PrismAudio 视频生成音频框架:声画同频,音效随行】阿里通义实验室推出 PrismAudio 框架,采用强化学习与分解式思维链,解决视频生成环境音(如马蹄声、风雨声)的精准匹配问题。模型通过四位“老师”分别从语义、时序、美学、空间维度打分,确保声音与画面严丝合缝。该模型仅 5.18 亿参数,生成 9 秒音频仅需 0.63 秒,性能超越现有方法。#阿里 PrismAudio##AI 音效生成#