GLM-5训练流程拆解

🔥Agentic能力从哪里来？拆解基座大模型 GLM-5 /MiniMax M2/Kimi K2.5 的训练过程

这次分享主要围绕 Agent 时代的基座大模型训练方法展开，重点以 GLM-5 为主线，MiniMax M2 和Kimi K2.5为支线，系统梳理一个基模从预训练到后训练对齐、从数据构造到强化学习优化的完整链路。

内容上，首先会介绍 GLM-5 的整体训练流程，包括 Pre-Training、Mid-Training、SFT、Reasoning RL、Agentic RL、General RL 以及 Cross-Stage Distillation 等关键阶段。

接着，会进一步拆解其基础模型训练中对代码、推理、coding场景的定向强化思路，以及后训练阶段如何通过多阶段 RL 逐步提升模型的 reasoning、coding 和 agent 执行能力。

在此基础上，分享还会重点讨论 agentic 数据合成。这里不仅包括传统意义上的文本合成，更包括任务合成、环境合成、反馈合成与轨迹合成。

以 GLM-5 和 MiniMax M2 为例，会分别分析 SWE、Terminal、Search 三类典型 agent 任务是如何从真实世界素材出发，被构造成可执行、可验证、可用于 SFT/RL 的训练样本。

最后，分享会结合 GLM-5 与 Kimi K2.5 等案例，进一步讨论大模型在 RL 阶段面临的几个核心训练挑战，包括训练—推理不一致、异步框架带来的 off-policy 问题，以及kimi k2.5的多智能体并行执行中的调度与奖励设计。整体上，这次分享希望回答一个核心问题：

一个真正具备 Reasoning、Coding 和 Agent 能力的现代大模型，究竟是如何被分阶段训练出来的。

阅读全文：http://t.cn/AXMzhgiH
#人工智能[超话]##青稞社区##agentic#

发布于河北