青稞AI 26-04-07 12:23
微博认证:AI博主

🔥Agentic能力从哪里来?拆解基座大模型 GLM-5 /MiniMax M2/Kimi K2.5 的训练过程

这次分享主要围绕 Agent 时代的基座大模型训练方法 展开,重点以 GLM-5 为主线,MiniMax M2 和Kimi K2.5为支线,系统梳理一个基模从预训练到后训练对齐、从数据构造到强化学习优化的完整链路。

内容上,首先会介绍 GLM-5 的整体训练流程,包括 Pre-Training、Mid-Training、SFT、Reasoning RL、Agentic RL、General RL 以及 Cross-Stage Distillation 等关键阶段。

接着,会进一步拆解其基础模型训练中对代码、推理、coding场景 的定向强化思路,以及后训练阶段如何通过多阶段 RL 逐步提升模型的 reasoning、coding 和 agent 执行能力。

在此基础上,分享还会重点讨论 agentic 数据合成。这里不仅包括传统意义上的文本合成,更包括 任务合成、环境合成、反馈合成与轨迹合成。

以 GLM-5 和 MiniMax M2 为例,会分别分析 SWE、Terminal、Search 三类典型 agent 任务是如何从真实世界素材出发,被构造成可执行、可验证、可用于 SFT/RL 的训练样本。

最后,分享会结合 GLM-5 与 Kimi K2.5 等案例,进一步讨论大模型在 RL 阶段面临的几个核心训练挑战,包括 训练—推理不一致、异步框架带来的 off-policy 问题,以及kimi k2.5的多智能体并行执行中的调度与奖励设计。整体上,这次分享希望回答一个核心问题:

一个真正具备 Reasoning、Coding 和 Agent 能力的现代大模型,究竟是如何被分阶段训练出来的。

阅读全文:http://t.cn/AXMzhgiH
#人工智能[超话]##青稞社区##agentic#

发布于 河北