腾讯开源的为视频生成环境/背景音的模型,效果超级好~comfyui已可用~!
HunyuanVideo-Foley: Multimodal Diffusion with Representation Alignment for High-Fidelity Foley Audio Generation
🧐 HunyuanVideo-Foley 是腾讯混元团队提出的 文本-视频到音频(TV2A)生成框架,通过多模态扩散和表征对齐(REPA),在音质、时序同步和跨模态一致性方面显著超越现有方法,实现高保真拟音生成。
➡️链接:http://t.cn/AXPJH39g
comfyui插件:http://t.cn/AXPJH39d
✨重点
● 🎬 研究背景:现有视频生成虽视觉逼真,但缺乏音频严重影响沉浸感;传统 V2A 方法存在数据稀缺、模态不平衡和音频质量不足问题。
● 📦 数据管道:构建 10 万小时多模态数据集,自动化标注并筛选高质量视频-音频对。
● 🔗 核心创新:
多模态扩散 Transformer:双流时序融合 + 跨模态语义注入,缓解模态竞争;
表征对齐 (REPA):利用自监督音频特征引导潜在扩散训练,提升稳定性与音质。
● 🧠 架构设计:融合文本(CLAP)、视觉(SigLIP-2)、音频(DAC-VAE),先经混合 Transformer,再经单模态 Transformer,并通过同步特征调控。
● 📊 实验结果:在 Kling-Audio-Eval、VGGSound-Test、MovieGen-Audio-Bench 等基准上,全面超越 FoleyCrafter、MMAudio、ThinkSound、Frieren 等 SOTA 方法。
● 🎧 性能亮点:在音质(MOS)、时序对齐(DeSync)、跨模态一致性(CLAP 分数)上均大幅领先。
● 🐠 案例展示:如珊瑚礁鱼群游动的水流声、火焰燃烧噼啪声、恐龙脚步与咆哮等,均展现了精确的声画同步。
● 📚 论文与资源:提供 ArXiv 论文、模型、代码和实验样例,便于社区复现与扩展。
发布于 广西
