选择是学习的最小单元

# 对抗式审查：AI 时代最低成本的学习回路

*不要求你自律，只要求你会选*

>我最近越来越觉得，AI 时代真正可持续的学习方式，可能不是逼自己先写一稿，而是在多个 AI 结果里做选择，并让另一个 AI 审查你的选择理由。
>因为选择，是人类在 AI 工作流里最愿意保留、也最难完全外包的动作。

---

## 从 Loop 工程说起：对抗式审查原本是什么

在讲我的思路之前，先聊一个最近热门的工程概念。

如果你知道 LLM 工程中的 Loop 架构（一种通过循环迭代来提升输出质量的框架），你大概率听过一个词叫**对抗式审查**。它的运行逻辑是：

>第一个 AI 生成一版输出 → 交给第二个 AI（独立的、没有上下文污染的、不带有色眼镜的新上下文）做审查 → 第二个 AI 指出问题、提出改进意见 → 第一个 AI 根据反馈修改 → 再交给第二个 AI 审查 → 循环，直到输出通过审查标准。

那个「独立的、没有上下文污染的」很重要。第二个 AI 没有看过第一个 AI 的思考过程、没有参与过它的起草、不知道它本来想写什么。它只看成品，然后做出独立判断。

这个机制在工程上被广泛使用，是因为它有效解决了模型的一个固有缺陷：模型自己写的东西，它自己很难客观地发现错误。它需要一面不知道它「本来想怎样」的镜子。

那么我最近在思考的问题就是：**这面镜子，能不能不只是照 AI，也照人？**

---

## 一个尴尬的现实

我跟不少 AI 原生代的创作者聊过，发现一个很难回避的问题：

他们用 AI 写稿、画图、写代码，效率很高，产出很快。但是当你把 AI 拿走，让他自己写一段 500 字的人物对白，他写不出来。不是不想写，是没写过。

你说那你自己先写一版，再让 AI 来帮你改，这样成长最快。他一定会说：「我为什么要自己先写一版？AI 能写，我直接让它写不就好了吗？」

你看，这个逻辑在效率层面是完全成立的。在「完成工作」这个维度上，任何人都没有理由拒绝 AI 的第一稿。但在「个人能力成长」这个维度上，跳过自己动手这一步，意味着你永远不会知道自己哪里有问题。

这就是当前 AI 时代学习困境的核心矛盾：**AI 让「完成」变得极快，也让「发现自己不会」的机会变得极稀薄。** 因为你不需要在写的过程中卡住，所以你也就不知道自己会在哪里卡住。你不需要修改自己的错，所以你永远不会记住那个错。现在很多人忧虑的教育问题本质上就是学习效率和学习成本对个人来说，被模型给稀释了。

你问他们怎么办，所有人都会告诉你：得自律，得自己先写一稿，得逼自己一把。

说起来很容易，但说实话，指望现在大多数人在 AI 时代还有那么强的内在驱动力去「先自己写一稿再让 AI 审」，太不现实了。不是态度问题，是这个时代的运行逻辑变了。效率优先是默认配置，让人在效率优先的环境里主动选择低效率的训练方式，本质上是在对抗系统。

所以问题是：**在不要求人先动手的前提下，学习还能不能发生？**

我试了一段时间，发现可以。但需要换一种思路。

---

## 先写再改，对大多数人来说门槛太高了

我最初的想法很传统：你写一稿，让 AI 审。

具体来说是：你写一段故事 / 一段代码 / 一个方案，交给一个没有上下文的 AI 做独立审查。它不体谅你「本来想写什么」，只看你「写出来的是什么」。然后你根据它的反馈修改，再让另一个没有上下文的 AI 审，循环几轮。

这个回路在理论上是完美的，你自己产出一版，模型独立审查，你修改，再审查。每一次循环都在训练你的判断力和表达能力。就像我和模型一起写故事一样，我参与其中，以至于我现在完全能看出来模型生成的细节到底是不是一个抓手，一个节点。

但我很快发现一个致命问题：**大多数人根本不会走完第一步。**

不是他们懒。是他们找不到「必须自己先写一稿」的理由。AI 能写，你让我自己写，那我用 AI 的意义是什么？这个问题在逻辑上是无解的，不要高估人类的内驱力。因为当你把 AI 定位为生产力工具的那一刻起，那用 AI 代替自己的第一稿就是天经地义的事。要求人先自己写一稿再让 AI 改，在这个逻辑下是一个反效率的要求。

所以这个回路只能服务两类人：一类是本身就有强大内在驱动力的创作者，另一类是处于学习阶段、愿意为了成长牺牲效率的人。但绝大多数人不在这个分类里。

我想了很久，直到有一次我打开 ComfyUI 让模型生图，以及最近几次做 Skill 的时候想明白了，于是把回路改了。

---

## 选择，是人愿意做的最小动作

既然「自己写一稿」这个门槛跨不过去，那就把门槛降到人愿意做的程度。

人在 AI 时代最常做的一个动作是什么？是选择。五维提示词引擎和审美共识这两个 Skill 里都有 CheckPoint，就是停下来让你补充信息，我都做成了选择模式。

AI 给你三个方案，你选一个。AI 给你五张图，你挑一张。AI 给你两段代码，你决定用哪段。选择是人在 AI 协作流程中天然存在的环节，不需要额外意志力去驱动，因为你本来就要做这个动作。

那如果在这个环节里嵌入学习，会怎样呢？

于是我思考后的新的回路变成了这样：

- **第一步**：AI 生成多个版本的第一稿。不要求你写任何东西，你只需要让 AI 跑一次。
- **第二步**：你基于自己当前的学识和判断，从多个版本里选一个你认为最好的。你不需要产出，只需要选。
- **第三步**：第二个 AI（没有上下文污染，不带有色眼镜）对比你选的版本和它认为最优的版本，分析差异，告诉你哪里选对了、哪里忽略了什么因素、你的判断盲区在哪里。
- **第四步**：你消化反馈。不需要马上写一版新的，只需要知道「原来我选 A 是因为这个原因，但 B 方案在另一个维度上其实更好」。
- **第五步**：下一次遇到类似问题时，你会不经意地调用上一次积累的判断力，然后再次选择，再次暴露盲区，再次获得反馈。

这个回路可以无限进行下去，如果你愿意用于学习的话。

这个回路的关键在于：**你的每一次选择都在暴露你当前的判断水平。** 选择，是取样的窗口。AI 通过你选择的结果，反推出你当前的认知边界在哪里，然后针对性地告诉你：你忽略了这个因素，你高估了那个风险，你对这个维度的判断是准确的。

你不觉得自己在学习。你只是做了个工作流中的选择，然后 AI 给了你一段反馈。但循环几次之后你可能就会发现：你开始能预判 AI 的反馈了。你在选 A 的时候就已经在想「但我也许忽略了 B 方案的扩展性成本」。你看，上一次反馈已经沉淀成了你的直觉。

**选择是学习的最小单元。** 它不需要你自律，不需要你先动手，不需要你额外花时间。你只需要在你已经会做的事上，多说一句「我选它是因为……」，然后听 AI 告诉你，你的判断哪里准、哪里不准。

---

## 为什么这个模式能跑通

这个框架并没有要求人改变行为习惯，只是把学习嵌入了现有的工作流。AI 时代，我当然知道人类有多懒。

我们对比一下下面的三种模式：

**模式一：自己写一稿 → AI 审 → 自己改**

>- 学习效果：最强。每一步都在调用你的能力。
>- 需要的前提：极强的内在驱动力。
>- 适合人群：传统从业者、学习者、愿意为成长牺牲效率的人。

**模式二：AI 写一稿 → AI 审 → 人看差异**

>- 学习效果：中等。你可以从两个 AI 的差异中学到判断标准。
>- 需要的前提：你愿意花时间去读两个 AI 的对话，而不是只拿走结果就走。
>- 适合人群：有意愿但没有时间自己写的人。

**模式三：AI 写多稿 → 人选择 → AI 反馈 → 人吸收 → 下一次选择**

>- 学习效果：中等偏慢，但稳定。不会产生爆发式成长，但每次循环都在修正判断力。
>- 需要的前提：你愿意在每一次选择后多听一句反馈。
>- 适合人群：AI 原生代、不愿意额外付出意志力的人、想「顺便学习」的人。

模式三是妥协的产物。它并没有模式一那么纯粹，也不是学习效果最好的哪一种。但它是唯一一个不需要人刻意改变行为习惯的模式。你在正常工作中，只需多做一步，说出你选它的理由，就会收到一次附带的学习机会。

这个「顺便学习」的机制，恰恰是它对我看到的大多数 AI 原生代可能更可行的原因。因为它不依赖你的自律，只依赖你的工作流。而工作流不需要你坚持。

---

### 一个隐蔽的优势：这个机制在人的场景可能更稳

这里有一个不容易被注意到的点。

在工程上，对抗式审查的稳定性其实**依赖条件**：第二个 AI 必须比第一个更强（至少不能更弱），而且必须保证上下文绝对隔离。这两个条件是有维护成本的，因为你需要选更强的模型做审查者，你需要保证每一次循环都不交叉上下文。任何一个条件失效，审查的质量就会下降。

但当你把这个机制从 AI vs AI 搬到 AI vs 人的场景里，这两个原本需要刻意维护的条件，**天然就满足了**：

1. **模型天然比初学者强。** 在任何一个具体领域里，今天的模型能力已经足以在一个初学者的盲区上形成有效补充。你不需要「比人聪明很多的 AI」，你只需要「比你在某个维度上多看一步的 AI」。而这件事，现在的模型基本都能做到。

2. **模型天然不与学习者的上下文融合。** 你不需要刻意隔离上下文，因为 AI 和你的认知本来就是两套独立的系统。它永远不跟你共享你的思考过程，永远用自己独立的逻辑来审视你的选择。你不需要为「去污染」付出额外成本。

这意味着：**对抗式审查在人的学习场景里，运行条件比在工程场景里更宽松。** 你不需要担心「审查者够不够强」，它根本不需要比所有人强，它只需要比你多关注一个你没注意的方向，然后这个循环就成立了。你也不需要担心「上下文有没有交叉」，你的大脑和模型的推理，天然就是两条平行线，说的狠一点，你的 B 数不可能超过模型。

这是 Loop 工程里一个反直觉的结论：**对抗式审查在 AI 训练 AI 的场景下是昂贵的优化手段（起码 Token 消耗就要多上一大截），在 AI 训练人的场景下反而变成了低成本的默认配置。** 你并没有做什么额外的工程工作，只是你恰好站在了 AI 够强但不会跟你混的那条线上。

至于有人会问「凭什么 AI 有资格纠正我？万一 AI 的审查也是错的呢？」。这个质疑在传统教学场景里有意义，但在这套框架里其实不构成威胁。因为框架不要求 AI 的反馈绝对正确，只要求 AI 相对你多提供了一个你没考虑到的视角。只要它比你多看了一眼，循环就成立了一次。而当这个循环跑了足够多次，你自己会长出分辨 AI 反馈质量的能力。到那时候，你不再需要「AI 绝对正确」，你需要的只是「AI 提供足够多的镜子让你看见自己」。

---

## 它适用于大部分领域

这个框架的核心机制是「选择暴露盲区，反馈修正判断」，它不绑定任何具体领域。

**编程场景下：**
AI 给你三段实现同一个功能的代码，你选一段你认为最优的。然后另一个 AI 告诉你：你选的那段在可读性上确实最好，但在边界异常处理上漏了两个情况。第二段代码虽然冗长，但错误覆盖率更高。你不需要自己写代码。你只需要在三个选项里选一个，然后知道你忽略了什么。多次循环后，你在阅读任何代码时都会自然扫一眼错误处理的部分，反馈转化成了直觉。

**设计场景下：**
AI 生成三版海报构图，你选一版你认为视觉动线最流畅的。另一个 AI 告诉你：你选的那版确实视线引导最好，但色彩对比度不符合使用场景的远距离识别需求。你无需自己画图。你只需要选，然后知道你的审美偏好里有一个盲区，你太关注构图而忽略了功能场景。下次你再选的时候，你会下意识地多看一眼色彩可读性，尽管你仍然没有自己动手画过。（当然我依然觉得，在当前的模型能力下，依赖主观感受的领域，Loop 未必能带来帮助）

**办公场景下：**
AI 写三版会议纪要/方案摘要/邮件回复。你选一版你认为最合适的。另一个 AI 告诉你：你选的那版信息完整但语气偏生硬，在对方刚经历过冲突的背景下可能适得其反。无需自己起草。你只需要选，然后知道你的判断里缺了一个「关系敏感性」的维度。下次你在看任何需要发出的文字时，都会多停半秒感受一下语气，那半秒就是上一次循环长出来的东西。

你看，无论在哪个领域，你都没有自己做过任何一件事。你只需要参与一下，你只是在选。但你的判断力在循环中从最初的直觉偏好，慢慢长出了专业维度的考量。

---

## 别矫枉过正

我当然不是在说「自己先写一稿」不重要。自己能写第一稿的人，在任何时代都是最能成长的那批人。那个能力永远不会过时，也永远值得你花时间去培养。

但如果你这个懒人的驱动力不支持你走那条路，就别硬走。强撑的自律撑不了太久。

选一种你不需要消耗意志力就能坚持的方式，哪怕它的学习效率只有模式一的百分之三十。只要你一直在循环里，你就一直在积累。一年后，你的判断力会比同年资、同起点、一直让 AI 全包而从不选择反馈的人高出一大截。是因为你更努力吗，不是。是因为你的每一次工作都在训练你的判断力，而他们的每一次工作都在绕过判断力。

这个差别，来源于你做选择时多说的那一句「我选它是因为……」，和 AI 给你的那一段反馈。或许，这是一种另类的 Human-in-the-loop。

---

## 如果你想现在就试

很简单的，你不需要搭建任何复杂的系统，只需要在你下一次使用 AI 时，多做一步：

>- 让它给你三个方案，而不是一个
>- 凭直觉选一个
>- 告诉它「我选这个是因为……」然后停下来，等它告诉你它的反馈
>- 不需要记住任何东西，继续工作就行

下一次需要做同类选择时，留意你的思考方式是不是有了细微的变化。就是这个变化，是那一次循环留下的。它会越积越多。

**不需要你自律，只需要你会在每次选择后，听一句反馈。**

---

*作者注：本文所描述的学习框架，源于作者在叙事写作、视觉设计等方向长期反复使用 AI 后的经验反刍，最初在 ComfyUI 里让模型生成多版图像做选择的日常中摸到了「选择即检查」的力量，后来在几个开源 Skill（如五维提示词引擎、审美共识）中不断设置 CheckPoint 让使用者停下来做判断，逐渐沉淀成这条回路。非严格学术研究，未进行大规模用户验证，本文只是有感而发。*

发布于上海