腾讯开源的为视频生成环境/背景音的模型，效果超级好~comfyui已可用~！HunyuanVideo-Foley: Multimodal Diffusion with Representation Alignment for High-Fidelity Foley Audio Generation🧐 HunyuanVideo-Foley 是腾讯混元团队提出的文本-视频到音频（TV2A）生成框架，通过多模态扩散和表征对

腾讯开源的为视频生成环境/背景音的模型，效果超级好~comfyui已可用~！
HunyuanVideo-Foley: Multimodal Diffusion with Representation Alignment for High-Fidelity Foley Audio Generation
🧐 HunyuanVideo-Foley 是腾讯混元团队提出的文本-视频到音频（TV2A）生成框架，通过多模态扩散和表征对齐（REPA），在音质、时序同步和跨模态一致性方面显著超越现有方法，实现高保真拟音生成。
➡️链接：http://t.cn/AXPJH39g
comfyui插件：http://t.cn/AXPJH39d

✨重点

● 🎬 研究背景：现有视频生成虽视觉逼真，但缺乏音频严重影响沉浸感；传统 V2A 方法存在数据稀缺、模态不平衡和音频质量不足问题。

● 📦 数据管道：构建 10 万小时多模态数据集，自动化标注并筛选高质量视频-音频对。

● 🔗 核心创新：
多模态扩散 Transformer：双流时序融合 + 跨模态语义注入，缓解模态竞争；
表征对齐 (REPA)：利用自监督音频特征引导潜在扩散训练，提升稳定性与音质。

● 🧠 架构设计：融合文本（CLAP）、视觉（SigLIP-2）、音频（DAC-VAE），先经混合 Transformer，再经单模态 Transformer，并通过同步特征调控。

● 📊 实验结果：在 Kling-Audio-Eval、VGGSound-Test、MovieGen-Audio-Bench 等基准上，全面超越 FoleyCrafter、MMAudio、ThinkSound、Frieren 等 SOTA 方法。

● 🎧 性能亮点：在音质（MOS）、时序对齐（DeSync）、跨模态一致性（CLAP 分数）上均大幅领先。

● 🐠 案例展示：如珊瑚礁鱼群游动的水流声、火焰燃烧噼啪声、恐龙脚步与咆哮等，均展现了精确的声画同步。

● 📚 论文与资源：提供 ArXiv 论文、模型、代码和实验样例，便于社区复现与扩展。

发布于广西