LTX模型的母公司Lightricks 基于LTX backbone 做了一个 HDR 视频研究项目,发布了一篇文章http://t.cn/AXMmEKnW http://t.cn/AXMmEKnO:他们认为传统视频生成模型几乎都是在 SDR 数据上训练的,也就是普通视频那种亮部会爆、暗部会死黑的范围,而 HDR 的像素值范围更大,包含更多高光和阴影细节。直接把 HDR 喂给一个已经在 SDR 上预训练好的模型,模型会觉得输入分布“很陌生”,于是容易出错、出伪影、细节崩掉。他们也试过重新训练编码器、专门做 HDR VAE、甚至从头搭新架构,但他们最后发现,问题不在模型结构,而在HDR 的数值表示方式没有对齐预训练模型的“习惯”。
他们发现电影摄影常用的 LogC3 编码,居然非常适合这个任务。LogC3 的作用,本质上是把“场景线性、范围极大的 HDR 光照值”压缩到一个更紧凑、接近感知习惯的范围里。这样一来,HDR 帧经过 LogC3 后,其数值分布会更接近模型在训练时见过的 SDR 分布。
他们的文章里强调了两层对齐:1.像素空间分布对齐 2.VAE latent 空间分布对齐。第二点更关键。因为模型真正工作的地方,不是原始像素,而是 latent。如果 latent 分布也更接近预训练分布,那模型就不需要“重新学会看世界”,只要学会在这个新表示上输出 HDR。
LumiVid 的方法不是重训大模型,而是“冻结主干 + 轻量适配”
它的结构思路很像:
先把 HDR 用 LogC3 变到一个“模型看得懂”的空间
冻结 VAE 和主干 DiT
只训练很小的 LoRA 适配层
输出仍然是 LogC3 域里的结果
最后再逆变换回 scene-linear float16 EXR
这意味着它不是在逼模型学全新的视觉世界,而是在利用预训练模型已有的视觉知识,做一个新的输出域适配。
他们认为仅仅把 HDR 做 LogC3 对齐,还不够。因为真实相机拍摄 SDR 时,亮部会剪切、暗部会压死、压缩也会损失信息。如果模型只是“看到什么就还原什么”,它就无法补回那些本来在输入里已经丢失的细节。
所以他们训练时故意加入类似相机损伤的退化:
MP4 压缩伪影
对比度裁剪
极亮/极暗区域的局部模糊等
这样模型学到的就不是“照抄输入”,而是根据视觉先验去补全缺失的辐射信息。
换句话说,它学会了“推断本来应该存在的细节”。
论文最后给了一个非常震撼的训练成本:
LoRA <1% 参数
约 300 clips
10,000 steps
单 GPU 约 8 小时训练完成
这说明 LumiVid 的核心突破,真的不是算力堆出来的。而是:选对了 HDR transfer function,让 frozen VAE 的 latent manifold 直接兼容 HDR,LumiVid 是 native video diffusion,一次生成49帧,直接继承 LTX backbone 的时序 prior,不要 frame-by-frame 补救,要在 native temporal domain 解决。
