直播预告|从 MiniLLM 开始,为什么 OPD 正在成为推理模型时代的“基础设施”?
过去一年里,OPD 几乎成为后训练领域最火热的话题之一。
来源:http://t.cn/AX6HuBBT
越来越多工作开始发现:
- 学生模型并不只是“模仿教师”
- On-policy 数据可能比静态 SFT 数据更重要
- Distillation 正在与 RL 深度融合
- 模型可以通过 Self-Play、Self-Refine、Self-Distillation 持续提升能力
- 后训练的重点,正在从“对齐”走向“进化”
从某种意义上说,大模型正在从“预测器”演化为“学习系统”。 (Hugging Face)
而这背后,也正在出现越来越多值得深入讨论的问题:
- 为什么 OPD 会突然爆火?
- 学生模型真的有可能超越教师模型吗?
- RL 与 Distillation 的边界正在如何消失?
- Self-Improving AI 会成为 AGI 时代的新训练范式吗?
- 未来的大模型,是否会像 Agent 一样持续在线成长?
5 月 30 日(周六)晚 8 点,#青稞AMA 第 3 期:On-Policy Distillation(OPD) 专题,青稞社区邀请到了当前 OPD / RL / LLM 后训练方向最核心的一批青年科学家,一起深入讨论这一轮技术演化背后的真正逻辑。
发布于 美国
