📣 全开源、多语言、长上下文推理模型来了！SmolLM3 正式发布 🎉SmolLM3 是 Hugging Face 推出的全新 3B 级别轻量模型，不仅在性能上超越同体积 LLaMA3-3B、Qwen2.5-3B，更可与 4B 模型正面对抗，在效率与能力之间达成理想平衡 🧠🌍 多语言、长文本、推理能力全覆盖：支持英文、法文、西班

📣 全开源、多语言、长上下文推理模型来了！SmolLM3 正式发布 🎉
SmolLM3 是 Hugging Face 推出的全新 3B 级别轻量模型，不仅在性能上超越同体积 LLaMA3-3B、Qwen2.5-3B，更可与 4B 模型正面对抗，在效率与能力之间达成理想平衡 🧠

🌍 多语言、长文本、推理能力全覆盖：
支持英文、法文、西班牙文、德文、意大利文、葡萄牙文六种语言
最长上下文支持 128k Token，处理长文档毫无压力
创新“思考模式”：用户可通过提示词 /think 或 /no_think 控制是否启用推理能力，兼顾速度与深度

🧪 技术亮点：
使用 GQA 替代传统多头注意力，大幅降低 KV 缓存，推理更高效
结合 NoPE、Intra-Document Masking 提升长上下文训练稳定性
三阶段预训练（Web + Code + Math 混合数据），覆盖知识、数学、代码等能力
中期训练加入显式推理能力，后期采用 APO 策略对齐偏好
支持工具调用（Tool Calling），可拓展为 AI 智能体

📈 实测效果出色：
综合表现优于同体积模型（LLaMA3-3B、Qwen2.5-3B）
数学、代码、推理等任务中显著领先，尤其在 /think 模式下提升明显
在 128k 上下文的 RULER 长文本基准中成绩稳定

📦 模型完全开源，附带训练脚本、中间 checkpoint 与详细数据配比，助你从零复刻同等级模型！

🤗 欢迎加入我们的中文社区：Chinese LLMs on Hugging Face，一起探索小模型的极限！
#Hugging Face##小模型##多语言大模型#

发布于美国