🇨🇳 来自中国的另一个优秀模型。
一个 35B 代理模型声称通过更长时间的思考达到 1T 模型的性能,而不是变得更大。
Apache-2.0 许可,模型权重在 Hugging Face 上。
这项技术提出了一种更便宜的方式来制造强大的 AI 代理:教它们更长的经过验证的工作习惯,而不只是让它们变得更大。
论文的主要想法是让代理练习长任务,在这些任务中它进行搜索、使用工具、阅读结果、修复错误,并检查答案。
作者们从长行动记录中构建训练数据,平均长度为 45K 个 token,因此模型学习整个工作流程。
然后,他们为搜索、科学、指令跟随、工具使用和其他领域训练专业教师模型,并将这些技能转移到一个学生模型中。
Agents-A1 在长任务基准测试中表现出色,包括搜索、科学、编码、工具使用和指令跟随。
发布于 北京
