#AI图像是怎么画出来的##AI生成图像背后数学原理# 3Blue1Brown大佬更新了！本期视频主题是：AI图像和视频到底是怎么“凭空”生成的？视频依旧延续简笔画讲解风格，既有物理味儿，又有哲学味儿，非科班观众也能看懂。下面进入正题，现代图像/视频生成模型主要依赖两种核心技术：- CLIP：由Open

#AI图像是怎么画出来的##AI生成图像背后数学原理#

3Blue1Brown大佬更新了！本期视频主题是：AI图像和视频到底是怎么“凭空”生成的？

视频依旧延续简笔画讲解风格，既有物理味儿，又有哲学味儿，非科班观众也能看懂。

下面进入正题，现代图像/视频生成模型主要依赖两种核心技术：

- CLIP：由OpenAI提出的图文对齐模型。它把文字和图片压缩进同一个“向量空间”，每段描述和每张图都有一个512维向量，向量越接近，图文越“对味”；

- Diffusion扩散模型：从纯噪声出发，一步步“反扩散”回一张清晰图像，就像时间倒流的布朗运动。

但要想让AI画图变得实用，还包括以下几个概念：

- 向量场视角：可以把整个反扩散过程看成模型在“学习”一个指向清晰图像的向量场；

- DDPM与DDIM：分别是带噪声与不带噪声的图像生成方式，DDIM在保留质量的同时大大提升了效率；

- 条件引导（Conditioning）：给模型加上提示词向量，引导它生成特定内容；

- 无分类器引导（Classifier-Free Guidance）：用“有prompt”和“无prompt”的结果差值来放大目标方向，模型才更“听话”；

- 反向prompt（Negative Prompt）：不是告诉模型你要什么，而是明确告诉它“不要出错”，比如“不要多出手指”，这种机制已在视频模型WAN2.1中使用。

最打动人的，是这个类比：扩散模型就像一颗随机行走的粒子，在每一次迭代中被拉向一个更“合理”的方向；而每个prompt，就是对“合理”的一种定义。

网友看完表示：有一种知识被强行塞入大脑的感觉。

时间戳：
0:00 介绍
3:37 CLIP
6:25 共享嵌入空间
8:16 扩散模型与DDPM
11:44 学习向量场
22:00 DDIM
25:25 DALL·E 2
26:37 条件生成
30:02 引导
33:39 负面提示词
34:27 总结
35:32 关于嘉宾视频 http://t.cn/A6FaKHeq