📽️ 通义万相(Wan)技术报告发布!
【技术亮点速览】:
🚀 可扩展训练范式
🔹多阶段递进训练:从192P图像预训练到720P视频的多阶段递进训练,结合Flow Matching框架,实现14B参数模型的高效稳定收敛。
🔹分布式训练加速:经过详细的负载分析,结合DP、CP、FSDP多种分布式策略,并在不同模块间采用分布式策略切换,能够高效训练长达百万Tokens的模型。
⚡️ 极致效率优化
🔹视频变分自编码器 :提出新型的基于Cache的3D因果Wan-VAE架构,能够编解码无限时长1080P视频,并且重构速度提升2.5倍,重构质量也取得头部的效果。
🔹轻量1.3B模型:仅需8.19GB显存,消费级GPU(如RTX 4090)可在4分钟左右生成5s视频,且性能超越更大规模开源模型。
🔹推理加速技术:融合CP、扩散缓存(Diffusion Cache)与FP8量化,14B模型推理速度提升1.6倍。
🚀 规模化数据构建
🔹数据策略:构建O(1)B级图像和视频数据,通过OCR检测、美学评分、运动质量分级等多步清洗流程,筛选高质量数据。
🔹双语视觉文字生成:首创支持中英文视频内嵌文字,通过合成数据与多模态语言模型联合优化,生成准确字形与自然场景融合。
🚀 开源生态构建
🔹下游任务全覆盖:支持图生视频、指令视频编辑、人像定制、实时生成等多达8类生成任务,能够满足多种创造场景的需求。
🔹多模型尺寸和多分辨率:同时开源1.3B和14B模型,可以支持480P和720P的视频生成,能够满足不同计算资源条件下推理需求。
🔹开源生态:完整公开模型、代码及训练策略,支持社区二次开发。在VBench等基准测试中,Wan 14B以86.22总分超越Sora等商业模型,引领开源视频生成技术革新!
🗒️技术报告全文👉:http://t.cn/A6B3iV3E
#通义万相# #通义#
