微调模型性能测试结论

哪个模型最适合微调? 来看 distil labs 花了一万刀测试的结论

distil labs 对一大堆小模型进行了微调测试, 结论来说, 微调后的 Qwen3-4B 在 8 项基准中的 7 项上表现与 GPT-OSS-120B 相当.

他们评估了包括:

Qwen3 系列：Qwen3-8B、Qwen3-4B-Instruct-2507、Qwen3-1.7B、Qwen3-0.6B。(为确保公平比较，关闭了qwen系列模型的思考功能)
Llama 系列：Llama-3.1-8B-Instruct、Llama-3.2-3B-Instruct、Llama-3.2-1B-Instruct
SmolLM2 系列：SmolLM2-1.7B-Instruct、SmolLM2-135M-Instruct
Gemma 系列：gemma-3-1b-it、gemma-3-270m-it
Granite(IBM的)：granite-3.3-8b-instruct

其中 Qwen3-4B 微调后分数最猛, 甚至超过了Qwen3-8B.

另外, 最容易微调的模型是 Llama-3.2-1B 即微调涨分最大的模型.

原文地址: www.distillabs.ai/blog/we-benchmarked-12-small-language-models-across-8-tasks-to-find-the-best-base-model-for-fine-tuning

#ai创造营##ai生活指南#

发布于美国