哪个模型最适合微调? 来看 distil labs 花了一万刀测试的结论
distil labs 对一大堆小模型进行了微调测试, 结论来说, 微调后的 Qwen3-4B 在 8 项基准中的 7 项上表现与 GPT-OSS-120B 相当.
他们评估了包括:
Qwen3 系列:Qwen3-8B、Qwen3-4B-Instruct-2507、Qwen3-1.7B、Qwen3-0.6B。(为确保公平比较,关闭了qwen系列模型的思考功能)
Llama 系列:Llama-3.1-8B-Instruct、Llama-3.2-3B-Instruct、Llama-3.2-1B-Instruct
SmolLM2 系列:SmolLM2-1.7B-Instruct、SmolLM2-135M-Instruct
Gemma 系列:gemma-3-1b-it、gemma-3-270m-it
Granite(IBM的):granite-3.3-8b-instruct
其中 Qwen3-4B 微调后分数最猛, 甚至超过了Qwen3-8B.
另外, 最容易微调的模型是 Llama-3.2-1B 即微调涨分最大的模型.
原文地址: www.distillabs.ai/blog/we-benchmarked-12-small-language-models-across-8-tasks-to-find-the-best-base-model-for-fine-tuning
#ai创造营##ai生活指南#
发布于 美国
