量子位 25-07-31 17:22
微博认证:量子位官方微博

#AI图像是怎么画出来的##AI生成图像背后数学原理#

3Blue1Brown大佬更新了!本期视频主题是:AI图像和视频到底是怎么“凭空”生成的?

视频依旧延续简笔画讲解风格,既有物理味儿,又有哲学味儿,非科班观众也能看懂。

下面进入正题,现代图像/视频生成模型主要依赖两种核心技术:

- CLIP:由OpenAI提出的图文对齐模型。它把文字和图片压缩进同一个“向量空间”,每段描述和每张图都有一个512维向量,向量越接近,图文越“对味”;

- Diffusion扩散模型:从纯噪声出发,一步步“反扩散”回一张清晰图像,就像时间倒流的布朗运动。

但要想让AI画图变得实用,还包括以下几个概念:

- 向量场视角:可以把整个反扩散过程看成模型在“学习”一个指向清晰图像的向量场;

- DDPM与DDIM:分别是带噪声与不带噪声的图像生成方式,DDIM在保留质量的同时大大提升了效率;

- 条件引导(Conditioning):给模型加上提示词向量,引导它生成特定内容;

- 无分类器引导(Classifier-Free Guidance):用“有prompt”和“无prompt”的结果差值来放大目标方向,模型才更“听话”;

- 反向prompt(Negative Prompt):不是告诉模型你要什么,而是明确告诉它“不要出错”,比如“不要多出手指”,这种机制已在视频模型WAN2.1中使用。

最打动人的,是这个类比:扩散模型就像一颗随机行走的粒子,在每一次迭代中被拉向一个更“合理”的方向;而每个prompt,就是对“合理”的一种定义。

网友看完表示:有一种知识被强行塞入大脑的感觉。

时间戳:
0:00 介绍
3:37 CLIP
6:25 共享嵌入空间
8:16 扩散模型与DDPM
11:44 学习向量场
22:00 DDIM
25:25 DALL·E 2
26:37 条件生成
30:02 引导
33:39 负面提示词
34:27 总结
35:32 关于嘉宾视频 http://t.cn/A6FaKHeq