Minimax团队发布Forge系统

🔥Minimax 团队分享：M2.5 模型训练背后，关于 Agent RL 系统的思考

在大规模、复杂的真实世界场景中跑 RL 时，始终面临一个核心难题：如何在系统吞吐量、训练稳定性与 Agent 灵活性这三者之间取得平衡。

为了解决这个问题，我们设计了一个异步的原生 Agent RL 系统—— Forge。

在 Forge 中，我们通过实现标准化的 Agent-LLM 交互协议，支持了对任意 Agent 脚手架进行训练，并且通过极致的工程优化和稳定的算法与奖励设计，实现了超大规模的强化学习。

在面对数十万个真实的 Agent 脚手架和环境以及 200k 的上下文长度时，我们的 RL 系统做到了每天百万级样本量的吞吐，并实现持续稳定的 Reward 上涨和真实的模型能力提升，并最终造就了 MiniMax M2.5 模型的性能突破。

阅读全文：http://t.cn/AXciLbZS
#人工智能[超话]##青稞社区##MiniMax#

发布于河北