#AI图像是怎么画出来的##AI生成图像背后数学原理#
3Blue1Brown大佬更新了!本期视频主题是:AI图像和视频到底是怎么“凭空”生成的?
视频依旧延续简笔画讲解风格,既有物理味儿,又有哲学味儿,非科班观众也能看懂。
下面进入正题,现代图像/视频生成模型主要依赖两种核心技术:
- CLIP:由OpenAI提出的图文对齐模型。它把文字和图片压缩进同一个“向量空间”,每段描述和每张图都有一个512维向量,向量越接近,图文越“对味”;
- Diffusion扩散模型:从纯噪声出发,一步步“反扩散”回一张清晰图像,就像时间倒流的布朗运动。
但要想让AI画图变得实用,还包括以下几个概念:
- 向量场视角:可以把整个反扩散过程看成模型在“学习”一个指向清晰图像的向量场;
- DDPM与DDIM:分别是带噪声与不带噪声的图像生成方式,DDIM在保留质量的同时大大提升了效率;
- 条件引导(Conditioning):给模型加上提示词向量,引导它生成特定内容;
- 无分类器引导(Classifier-Free Guidance):用“有prompt”和“无prompt”的结果差值来放大目标方向,模型才更“听话”;
- 反向prompt(Negative Prompt):不是告诉模型你要什么,而是明确告诉它“不要出错”,比如“不要多出手指”,这种机制已在视频模型WAN2.1中使用。
最打动人的,是这个类比:扩散模型就像一颗随机行走的粒子,在每一次迭代中被拉向一个更“合理”的方向;而每个prompt,就是对“合理”的一种定义。
网友看完表示:有一种知识被强行塞入大脑的感觉。
时间戳:
0:00 介绍
3:37 CLIP
6:25 共享嵌入空间
8:16 扩散模型与DDPM
11:44 学习向量场
22:00 DDIM
25:25 DALL·E 2
26:37 条件生成
30:02 引导
33:39 负面提示词
34:27 总结
35:32 关于嘉宾视频 http://t.cn/A6FaKHeq
