虎嗅APP 24-02-18 19:00
微博认证:虎嗅网huxiu.com官方微博

【#技惊四座的Sora模型#,参数只有30亿?】

尽管Sora没有在技术报告中披露重要的细节,但是构建这个扩散Transformer模型所依据的最重要的一批论文中,可以看到和推测出一些不为人知的“秘密”。

其中最重要的一篇论文的作者谢赛宁认为,这次推出Sora模型可能只有30亿参数,导致了一些图的效果很差。如技术报告中的第一个视频,即一位时尚女性漫步东京街头的那段,其中有三步走错了。尽管如此,接下来的迭代会非常快。

在Sora技术报告所引述的32篇论文中,第26篇毫无疑问是其中最重要的一篇。

Peebles, William & Saining Xie. "Scalable diffusion models with transformers." Proceedings of the IEEE/CVF International Conference on Computer Vision. 2023.

联合作者中,Peebles在伯克利读博士时在Meta AI的FAIR实习,与担任研究科学家的同事谢赛宁共同完成了这项研究。目前谢赛宁是纽约大学数据科学中心的助理教授。

Peebles目前是OpenAI Sora项目的共同负责人,在Sora技术报告作者中,他的名字排到第二。

关于Sora,谢赛宁在社交媒体X上发表了他的看法,如下:

这是我对Sora技术报告的看法,其中包含了大量的猜测,这些猜测可能完全错误。首先,非常感谢团队分享有用的见解和设计决策——Sora非常了不起,将会改变视频生成社区。

我们到目前为止学到了什么:

架构:Sora建立在我们的扩散Transformer(DiT)模型之上(发表于ICCV 2023)——简而言之,它是一个带有Transformer骨架的扩散模型:DiT = [VAE编码器 + ViT + DDPM + VAE解码器]。

注:VAE:变分自编码器(Variational Autoencoder)。它是一种深度学习模型,用于在无监督学习的框架下学习数据的高维概率分布。VAE通常由两部分组成:编码器和解码器。

DDPM:去噪扩散概率模型(Denoising Diffusion Probabilistic Models)。这是一类生成模型,用于通过模拟反向扩散过程来生成数据。DDPM模型的核心思想是将数据生成过程建模为一系列渐进的去噪步骤,这些步骤逐渐将噪声数据转换为干净的数据样本。

根据报告,似乎没有太多额外的附加功能。

“视频压缩网络”:看起来就像是一个VAE,但是训练在原始视频数据上。标记化在获取良好的时间连贯性方面可能起着重要作用。顺便说一下,VAE是一个卷积网络,所以从技术上讲,DiT是一个混合模型。

Sora可能只有3B参数

当比尔和我在DiT项目上工作时,我们没有专注于创新性,而是优先考虑了两个方面:简单性和可扩展性。这些优先事项不仅仅提供了概念上的优势。

简单性意味着灵活性。人们常常忽视的是,原始的ViT让你的模型在处理输入数据时变得更加灵活。例如,在掩蔽自编码器(MAE)中,ViT帮助我们仅处理可见的块并忽略掩蔽的块。同样,Sora“可以通过在适当大小的网格中排列随机初始化的块来控制生成视频的大小。”UNet并不直接提供这种灵活性。

注:MAE:掩蔽自编码器(Masked Autoencoder),这是一种自编码器架构,特别设计用于高效处理大规模图像数据。MAE通过在输入图像上随机应用掩蔽(即遮盖一部分像素或图像块)的方法,迫使模型重建被掩蔽的部分,从而学习到图像的内在表示。

UNet是一种流行的卷积神经网络架构,特别适合图像分割任务,其中目标是对图像中的每个像素进行分类,以确定它属于哪个区域或对象。应用于医疗成像、遥感图像处理和自然场景理解等。

猜测:Sora可能还使用了谷歌的Patch n’ Pack(NaViT),使DiT能够适应不同的分辨率/持续时间/宽高比。

注:Sora技术报告引述了这篇论文:Dehghani, Mostafa, et al. "Patch n'Pack: NaViT, a Vision Transformer for any Aspect Ratio and Resolution."

可扩展性是DiT论文的核心主题。首先,优化后的DiT在每Flop的墙钟时间上运行得比UNet快得多。更重要的是,Sora证明了DiT的扩展规律不仅适用于图像,现在也适用于视频——Sora复制了在DiT中观察到的视觉扩展行为。http://t.cn/A6Ya6waV(作者:未尽研究)