LumiVid用LogC3生成HDR视频

LTX模型的母公司Lightricks 基于LTX backbone 做了一个 HDR 视频研究项目，发布了一篇文章http://t.cn/AXMmEKnW http://t.cn/AXMmEKnO：他们认为传统视频生成模型几乎都是在 SDR 数据上训练的，也就是普通视频那种亮部会爆、暗部会死黑的范围，而 HDR 的像素值范围更大，包含更多高光和阴影细节。直接把 HDR 喂给一个已经在 SDR 上预训练好的模型，模型会觉得输入分布“很陌生”，于是容易出错、出伪影、细节崩掉。他们也试过重新训练编码器、专门做 HDR VAE、甚至从头搭新架构，但他们最后发现，问题不在模型结构，而在HDR 的数值表示方式没有对齐预训练模型的“习惯”。
他们发现电影摄影常用的 LogC3 编码，居然非常适合这个任务。LogC3 的作用，本质上是把“场景线性、范围极大的 HDR 光照值”压缩到一个更紧凑、接近感知习惯的范围里。这样一来，HDR 帧经过 LogC3 后，其数值分布会更接近模型在训练时见过的 SDR 分布。
他们的文章里强调了两层对齐：1.像素空间分布对齐 2.VAE latent 空间分布对齐。第二点更关键。因为模型真正工作的地方，不是原始像素，而是 latent。如果 latent 分布也更接近预训练分布，那模型就不需要“重新学会看世界”，只要学会在这个新表示上输出 HDR。
LumiVid 的方法不是重训大模型，而是“冻结主干 + 轻量适配”

它的结构思路很像：
先把 HDR 用 LogC3 变到一个“模型看得懂”的空间
冻结 VAE 和主干 DiT
只训练很小的 LoRA 适配层
输出仍然是 LogC3 域里的结果
最后再逆变换回 scene-linear float16 EXR

这意味着它不是在逼模型学全新的视觉世界，而是在利用预训练模型已有的视觉知识，做一个新的输出域适配。
他们认为仅仅把 HDR 做 LogC3 对齐，还不够。因为真实相机拍摄 SDR 时，亮部会剪切、暗部会压死、压缩也会损失信息。如果模型只是“看到什么就还原什么”，它就无法补回那些本来在输入里已经丢失的细节。
所以他们训练时故意加入类似相机损伤的退化：

MP4 压缩伪影
对比度裁剪
极亮/极暗区域的局部模糊等

这样模型学到的就不是“照抄输入”，而是根据视觉先验去补全缺失的辐射信息。
换句话说，它学会了“推断本来应该存在的细节”。

论文最后给了一个非常震撼的训练成本：

LoRA <1% 参数
约 300 clips
10,000 steps
单 GPU 约 8 小时训练完成
这说明 LumiVid 的核心突破，真的不是算力堆出来的。而是：选对了 HDR transfer function，让 frozen VAE 的 latent manifold 直接兼容 HDR，LumiVid 是 native video diffusion，一次生成49帧，直接继承 LTX backbone 的时序 prior，不要 frame-by-frame 补救，要在 native temporal domain 解决。

发布于广东