OPD成推理模型基础设施

直播预告｜从 MiniLLM 开始，为什么 OPD 正在成为推理模型时代的“基础设施”？

过去一年里，OPD 几乎成为后训练领域最火热的话题之一。

来源：http://t.cn/AX6HuBBT

越来越多工作开始发现：

- 学生模型并不只是“模仿教师”
- On-policy 数据可能比静态 SFT 数据更重要
- Distillation 正在与 RL 深度融合
- 模型可以通过 Self-Play、Self-Refine、Self-Distillation 持续提升能力
- 后训练的重点，正在从“对齐”走向“进化”

从某种意义上说，大模型正在从“预测器”演化为“学习系统”。 (Hugging Face)

而这背后，也正在出现越来越多值得深入讨论的问题：

- 为什么 OPD 会突然爆火？
- 学生模型真的有可能超越教师模型吗？
- RL 与 Distillation 的边界正在如何消失？
- Self-Improving AI 会成为 AGI 时代的新训练范式吗？
- 未来的大模型，是否会像 Agent 一样持续在线成长？

5 月 30 日（周六）晚 8 点，#青稞AMA 第 3 期：On-Policy Distillation（OPD）专题，青稞社区邀请到了当前 OPD / RL / LLM 后训练方向最核心的一批青年科学家，一起深入讨论这一轮技术演化背后的真正逻辑。

发布于美国