斌叔OKmath
26-07-02 10:50 微博认证:橙旭园CEO 教育博主

🇨🇳 来自中国的另一个优秀模型。

一个 35B 代理模型声称通过更长时间的思考达到 1T 模型的性能,而不是变得更大。

Apache-2.0 许可,模型权重在 Hugging Face 上。

这项技术提出了一种更便宜的方式来制造强大的 AI 代理:教它们更长的经过验证的工作习惯,而不只是让它们变得更大。

论文的主要想法是让代理练习长任务,在这些任务中它进行搜索、使用工具、阅读结果、修复错误,并检查答案。

作者们从长行动记录中构建训练数据,平均长度为 45K 个 token,因此模型学习整个工作流程。

然后,他们为搜索、科学、指令跟随、工具使用和其他领域训练专业教师模型,并将这些技能转移到一个学生模型中。

Agents-A1 在长任务基准测试中表现出色,包括搜索、科学、编码、工具使用和指令跟随。

发布于 北京