抱抱脸开源的这个3B的小模型SmolLM3-3B为什么值得关注呢?
因为它不光是开源了模型,而且开源了整个训练的过程,包括数据集、数据处理框架,预训练、后训练,训练代码,评估框架等等。
就是整个过程全部是开源的。
大多数模厂只是开源模型,而对于数据集和配方,训练手法是不开源的。
这样,你在这个基础上复现这个3B的小模型,你就可以学会从零开始,训练整个模型的技巧和手法。
有人可能会认为3B的模型太小,没用。
不是的。
你要学习,一般是先训练一个小模型,把所有的知识点都学会,卡点堵点都摸清楚。
然后,你在这个基础上扩层,逐步可以训练一个参数很大的模型。
而且,对于大多数人来说,训练一个小模型,就已经掌握了模型训练的基本诀窍了。
训练大模型,往往是大型GPU集群(千卡,万卡,十万卡),大型数据处理方面的问题,这个人才现在很贵。
含金量非常高。
即使你现在不训练模型,也可以先知道这个事情再说,将来可能用得着。
模型地址:huggingface.co/HuggingFaceTB/SmolLM3-3B
训练推理代码地址:github.com/huggingface/smollm
发布于 江苏
