歸藏的AI工具箱
25-07-09 12:14 微博认证:AI博主

Huggingface 发布 SmolLM3 3B LLM#ai创造营#

性能上超越 Llama-3.2-3B 和 Qwen2.5-3B,同时与更大的 4B 模型 Gemma3 持平

除了开源模型本身外,还开源了使用公共数据集和训练框架训练模型的方法

- 3B 模型在 11T Toekn 上训练
- 具备双模式推理的指令模型
-支持 6 种语言的多语言
- 最长支持 128K 上下文

架构与训练细节

采用 Transformer 解码器架构,基于 Llama 并做了多项优化:
Grouped Query Attention (GQA): 替换多头注意力,减少推理时 KV cache 占用。
NoPE: 部分层移除旋转位置编码,提升长上下文表现。
Intra-Document Masking: 保证同一序列不同文档间不可互相注意,提升训练稳定性。
Embedding 层无权重衰减: 参考 OLMo 2,提升训练稳定性。
训练配置:2.36M tokens 全局 batch,序列长度 4096,AdamW 优化器,24 天内用 384 张 H100 GPU 训练。

数据混合与多阶段训练

采用三阶段训练策略,逐步调整 Web、代码、数学数据比例,总计训练 11.2T tokens。
阶段 1:以 Web 数据为主,奠定基础能力。
阶段 2:提升高质量数学和代码数据比例。
阶段 3:进一步提升数学和代码数据占比,加入推理数据。
训练后期进行“mid-training”,分别针对长上下文和推理能力做短期训练。

长上下文与推理能力提升

长上下文扩展:通过两阶段训练将上下文窗口从 4k 扩展到 64k,并用 YARN 技术在推理时支持到 128k。
推理 mid-training:用 35B tokens 的推理数据(如 OpenThoughts3-1.2M、Llama-Nemotron 数据集)提升通用推理能力。

后训练与模型对齐

采用双模式 chat 模板,用户可通过 `/think`(推理)和 `/no_think`(非推理)切换模式。
支持工具调用(XML/Python 工具)。
SFT 阶段用 1.8B tokens 进行监督微调,平衡推理与非推理能力。
用 Anchored Preference Optimization (APO) 进行偏好对齐,提升模型输出质量。
通过模型合并(MergeKit),结合 APO 检查点和长上下文能力强的中间模型,最终模型兼顾推理和长上下文表现。

详细信息:http://t.cn/A6kzYPAy

发布于 北京