Huggingface 发布 SmolLM3 3B LLM#ai创造营# 性能上超越 Llama-3.2-3B 和 Qwen2.5-3B，同时与更大的 4B 模型 Gemma3 持平除了开源模型本身外，还开源了使用公共数据集和训练框架训练模型的方法- 3B 模型在 11T Toekn 上训练- 具备双模式推理的指令模型-支持 6 种语言的多语言- 最长支持 128K

Huggingface 发布 SmolLM3 3B LLM#ai创造营#

性能上超越 Llama-3.2-3B 和 Qwen2.5-3B，同时与更大的 4B 模型 Gemma3 持平

除了开源模型本身外，还开源了使用公共数据集和训练框架训练模型的方法

- 3B 模型在 11T Toekn 上训练
- 具备双模式推理的指令模型
-支持 6 种语言的多语言
- 最长支持 128K 上下文

架构与训练细节

采用 Transformer 解码器架构，基于 Llama 并做了多项优化：
Grouped Query Attention (GQA)：替换多头注意力，减少推理时 KV cache 占用。
NoPE：部分层移除旋转位置编码，提升长上下文表现。
Intra-Document Masking：保证同一序列不同文档间不可互相注意，提升训练稳定性。
Embedding 层无权重衰减：参考 OLMo 2，提升训练稳定性。
训练配置：2.36M tokens 全局 batch，序列长度 4096，AdamW 优化器，24 天内用 384 张 H100 GPU 训练。

数据混合与多阶段训练

采用三阶段训练策略，逐步调整 Web、代码、数学数据比例，总计训练 11.2T tokens。
阶段 1：以 Web 数据为主，奠定基础能力。
阶段 2：提升高质量数学和代码数据比例。
阶段 3：进一步提升数学和代码数据占比，加入推理数据。
训练后期进行“mid-training”，分别针对长上下文和推理能力做短期训练。

长上下文与推理能力提升

长上下文扩展：通过两阶段训练将上下文窗口从 4k 扩展到 64k，并用 YARN 技术在推理时支持到 128k。
推理 mid-training：用 35B tokens 的推理数据（如 OpenThoughts3-1.2M、Llama-Nemotron 数据集）提升通用推理能力。

后训练与模型对齐

采用双模式 chat 模板，用户可通过 `/think`（推理）和 `/no_think`（非推理）切换模式。
支持工具调用（XML/Python 工具）。
SFT 阶段用 1.8B tokens 进行监督微调，平衡推理与非推理能力。
用 Anchored Preference Optimization (APO) 进行偏好对齐，提升模型输出质量。
通过模型合并（MergeKit），结合 APO 检查点和长上下文能力强的中间模型，最终模型兼顾推理和长上下文表现。

详细信息：http://t.cn/A6kzYPAy

发布于北京