karminski-牙医 25-12-16 10:24
微博认证:AI博主

昨天说泄露的NVIDIA-Nemotron-3-Nano-30B-A3B结果今天发布啦!

这是一个结合Mamba-2 和 Transformer的MoE模型,可以开启或者关闭推理,知识截止日期是2025年11月28日。

最亮眼的成绩应该是数学能力测试 AIME25 刷到了89.1,如果让这个模型使用工具,则能刷到99.2 (AIME25有几道题使用编程方法来解会更简单)。编程能力测试LiveCodeBench (v6) 则是68.3,从这个分数上来看属于能用的水平。科学推理能力 GPQA则是 73。

作为对比,Qwen3-30B-A3B-Thinking-2507 的AIME25成绩是85,LiveCodeBench (v6) 则是66. GPQA是73.4. 基本上Nemotron-3-Nano-30B-A3B是针对数学能力优化的模型。

不过Nemotron-3-Nano-30B-A3B还有个最大的好处是,它把预训练和后训练数据集全都开源了,所以作为用来学习和研究的模型是个不错的选择。

模型地址:huggingface.co/nvidia/NVIDIA-Nemotron-3-Nano-30B-A3B-BF16

#ai生活指南##ai创造营#

发布于 日本