📣 全开源、多语言、长上下文推理模型来了!SmolLM3 正式发布 🎉
SmolLM3 是 Hugging Face 推出的全新 3B 级别轻量模型,不仅在性能上超越同体积 LLaMA3-3B、Qwen2.5-3B,更可与 4B 模型正面对抗,在效率与能力之间达成理想平衡 🧠
🌍 多语言、长文本、推理能力全覆盖:
支持英文、法文、西班牙文、德文、意大利文、葡萄牙文六种语言
最长上下文支持 128k Token,处理长文档毫无压力
创新“思考模式”:用户可通过提示词 /think 或 /no_think 控制是否启用推理能力,兼顾速度与深度
🧪 技术亮点:
使用 GQA 替代传统多头注意力,大幅降低 KV 缓存,推理更高效
结合 NoPE、Intra-Document Masking 提升长上下文训练稳定性
三阶段预训练(Web + Code + Math 混合数据),覆盖知识、数学、代码等能力
中期训练加入显式推理能力,后期采用 APO 策略对齐偏好
支持工具调用(Tool Calling),可拓展为 AI 智能体
📈 实测效果出色:
综合表现优于同体积模型(LLaMA3-3B、Qwen2.5-3B)
数学、代码、推理等任务中显著领先,尤其在 /think 模式下提升明显
在 128k 上下文的 RULER 长文本基准中成绩稳定
📦 模型完全开源,附带训练脚本、中间 checkpoint 与详细数据配比,助你从零复刻同等级模型!
🤗 欢迎加入我们的中文社区:Chinese LLMs on Hugging Face,一起探索小模型的极限!
#Hugging Face##小模型##多语言大模型#
发布于 美国
