让 Z-Image 提速 100 倍?
Inclusion AI 刚发布了一个魔改版 Z-Image-Turbo,将原本需要 40-100 步才能生成图片的模型压缩到只需 1-2 步。做了个速记卡来给大家介绍为什么 TwinFlow 可以生成得更快。
简单来讲,TwinFlow 用了一个很巧妙的思路:传统扩散模型就像画素描,需要一笔一笔慢慢加细节(40-100 步)。而 TwinFlow 给模型设计了一个"自己跟自己较劲"的训练方式——把时间轴从 [0,1] 扩展到 [-1,1],负数时间段让模型生成"假图片",正数时间段生成"真图片"。
这样模型就能同时看到"什么是好的"和"什么是不好的",然后通过对比这两条路径的差异(速度场的差值),不断修正自己。就像你在写代码时,如果能同时看到正确答案和错误答案的对比,学习速度会快很多——最终模型学会了"一步到位"直接生成高质量图片。
关键是这个过程不需要额外训练一个判别器网络(传统 GAN 的做法),也不需要保留一个冻结的教师模型(知识蒸馏的做法)。所有的对抗、评估、优化都在一个模型内部完成,这就是为什么它能轻松扩展到 20B 参数规模。
另外,除了速度提升,显存使用也大幅下降。因为其他方法(如 DMD、VSD)需要同时维护 3 个模型(生成器、判别器、教师模型),而 TwinFlow 只需要一个模型就够了,GPU 内存占用可以省下 60% 以上。
在实测中,20B 参数的 Qwen-Image 模型用 TwinFlow 训练后,1 步生成的效果就能达到原来 100 步的质量,GenEval 得分保持 0.83,但推理时间从几十秒降到了零点几秒。
#ai生活指南##ai创造营#
发布于 日本
