35B模型靠思考达1T性能|agents-a1|35b代理模型|apache-2.0|hugging face

🇨🇳 来自中国的另一个优秀模型。

一个 35B 代理模型声称通过更长时间的思考达到 1T 模型的性能，而不是变得更大。

Apache-2.0 许可，模型权重在 Hugging Face 上。

这项技术提出了一种更便宜的方式来制造强大的 AI 代理：教它们更长的经过验证的工作习惯，而不只是让它们变得更大。

论文的主要想法是让代理练习长任务，在这些任务中它进行搜索、使用工具、阅读结果、修复错误，并检查答案。

作者们从长行动记录中构建训练数据，平均长度为 45K 个 token，因此模型学习整个工作流程。

然后，他们为搜索、科学、指令跟随、工具使用和其他领域训练专业教师模型，并将这些技能转移到一个学生模型中。

Agents-A1 在长任务基准测试中表现出色，包括搜索、科学、编码、工具使用和指令跟随。

发布于北京