挨踢牛魔王 25-07-09 18:17
微博认证:科技博主

抱抱脸开源的这个3B的小模型SmolLM3-3B为什么值得关注呢?

因为它不光是开源了模型,而且开源了整个训练的过程,包括数据集、数据处理框架,预训练、后训练,训练代码,评估框架等等。
就是整个过程全部是开源的。

大多数模厂只是开源模型,而对于数据集和配方,训练手法是不开源的。

这样,你在这个基础上复现这个3B的小模型,你就可以学会从零开始,训练整个模型的技巧和手法。

有人可能会认为3B的模型太小,没用。
不是的。

你要学习,一般是先训练一个小模型,把所有的知识点都学会,卡点堵点都摸清楚。
然后,你在这个基础上扩层,逐步可以训练一个参数很大的模型。

而且,对于大多数人来说,训练一个小模型,就已经掌握了模型训练的基本诀窍了。
训练大模型,往往是大型GPU集群(千卡,万卡,十万卡),大型数据处理方面的问题,这个人才现在很贵。

含金量非常高。

即使你现在不训练模型,也可以先知道这个事情再说,将来可能用得着。

模型地址:huggingface.co/HuggingFaceTB/SmolLM3-3B
训练推理代码地址:github.com/huggingface/smollm

发布于 江苏