没有最强,只有更强,AI技术发展太快了!最新推理模型s1-32B的训练仅用了16个H100 GPU和26分钟!在数学竞赛题目测试中的表现超过了OpenAI的o1-preview。
斯坦福大学和华盛顿大学采用了一种称为“测试时扩展(Test-time scaling)”的方法,以极低的成本开发出了一个高质量的新模型s1-32B,并通过控制推理时的计算资源来优化和提升模型推理性能。
他们从谷歌Gemini 2.0 Flash Thinking中精心挑选了1000个有代表性的问题,并收集了答案和详细推理过程的数据。然后用这些数据,通过监督学习的方法对阿里巴巴的QWen2.5-32B-Instruct大模型进行微调,训练出新模型s1-32B。
他们还创新地提出一种叫“强制预算(budget forcing)”的方法来管理推理时的计算资源。通过在模型试图结束推理时延长其推理时间或强行终止模型的思考过程,优化推理性能和质量。
敢想:
1. 高效的训练方法不一定需要庞大的训练数据集或长时间的训练,低成本也能开发出具有竞争力的模型。
2. 训练数据质量是关键,还有站在已有模型的肩膀上!
3. 模型推理需求不断增长,将极大影响未来AI产业在训练与推理资源分配和技术创新方面的格局。
- 论文:http://t.cn/A63rnUIW
- 模型、数据和代码:http://t.cn/A63rnDYJ
#人工智能##大模型##大模型最新进展#
发布于 美国
