Hugging Face:发布双推理、小参数模型!
今天凌晨,著名大模型开放平台Hugging Face发布了一个顶级小参数模型——SmolLM3。
据介绍,SmolLM3只有30亿参数,性能却大幅度超过了Llama-3.2-3B 、Qwen2.5-3B等同类开源模型。它拥有128k的上下文窗口,支持英语、法语、西班牙语、德语等6种语言,支持深度思考和非思考双推理模式,用户可以灵活切换。
从试用情况看,这个SmolLM3的架构细节、数据混合方式、三阶段预训练以及构建混合推理模型的方法,都已全部开放使用,这对于开发人员深度研究或优化自己的模型是很有帮助的。
它是在通用数据上训练模型,进而在数学、代码、通用推理、指令遵循、多语言和工具调用方面,融合了推理和非推理模式,不断优化自己模型。
Hugging Face的联合创始人Thomas Wolf对该模型进行了强烈推荐,认为它是3B领域的SOTA模型,非常适合用于开源模型的优化测试。
#热门微博##科技快讯##人工智能##大模型#
发布于 广东
