[CL]《NVIDIA Nemotron 3: Efficient and Open Intelligence》N A Blakeman, A Grattafiori, A Basant, A Gupta... [NVIDIA] (2025)
NVIDIA 发布了 Nemotron 3 系列模型,这不仅是开源模型的一次迭代,更是对“推理效率”与“智能边界”关系的重新定义。
从 Nano 到 Super 再到 Ultra,Nemotron 3 试图解决一个核心矛盾:如何在有限的计算资源下,实现最强的 Agent 智能。
以下是该模型家族的核心技术突破与深度思考:
混合架构的终极形态:Mamba 与 Transformer 的联姻
Nemotron 3 采用了 Hybrid Mamba-Transformer MoE 架构。传统的 Transformer 在处理长文本时,KV Cache 的线性增长是推理成本的噩梦。NVIDIA 的策略是:将昂贵的自注意力层最小化,大量交替使用计算成本极低的 Mamba-2 层。
这种设计让模型在推理吞吐量上实现了飞跃。例如,Nano 30B 在处理推理任务时,吞吐量达到了同类模型 Qwen3 的 3.3 倍。这告诉我们:未来的智能不应被显存带宽绑架,高效的序列建模才是 Agent 规模化的基石。
LatentMoE:针对硬件瓶颈的精准手术
这是 Nemotron 3 最具启发性的创新。NVIDIA 意识到,MoE 模型的瓶颈在于内存带宽和节点间通信。
LatentMoE 将 Token 投影到一个更小的潜空间(Latent Space)进行路由和专家计算。这意味着在不增加通信开销的前提下,可以显著增加专家总数和激活专家数。
结果是:在相同的计算预算下,模型精度大幅提升。这是一种“硬件感知”的算法设计,体现了 NVIDIA 对算力底层逻辑的深刻理解。
NVFP4 训练:开启极低精度训练时代
Nemotron 3 证明了在 25 万亿 Token 的超大规模预训练中,使用 NVFP4(4位浮点数)是可行且稳定的。相比 FP8,FP4 的峰值吞吐量提升了 3 倍。
虽然在 Mamba 输出层等敏感部位保留了高精度以维持稳定性,但整体向低精度迈进的趋势不可阻挡。这意味着未来的模型训练将更快、更省电,算力民主化的门槛正在被技术手段进一步拉低。
100万长上下文:从“能看到”到“能理解”
Nemotron 3 支持高达 1M Tokens 的上下文长度。由于 Mamba 层的存在,它天然规避了 RoPE(旋转位置编码)在长文本外推时的分布偏移问题。
实验显示,其负对数似然(NLL)随着序列长度增加而持续下降,这意味着模型在处理百万级代码或文档时,是真的在“吸收”信息,而非简单的机械重复。对于需要处理海量历史记录的 AI Agent 而言,这是质的突破。
多环境强化学习:拒绝单一赛道的进化
不同于以往分阶段的训练,Nemotron 3 在后训练阶段采用了多环境同步强化学习(Multi-environment RL)。它同时在代码、数学、工具使用、长文本等多个环境中进化。
这种“全能型”训练避免了模型在习得新技能时遗忘旧技能(Catastrophic Forgetting)。配合 GRPO 算法,模型在复杂任务中的推理稳定性得到了极大的增强。
颗粒度推理预算控制:智能的“油门”由你掌控
Nemotron 3 延续并强化了推理时间预算控制。用户可以根据应用场景,精确指定模型“思考”的最大 Token 数。
在需要快速响应的简单任务中,缩短思考链;在复杂的逻辑难题中,释放全部算力。这种灵活性让 AI 能够像人类一样,根据问题的难易程度分配注意力。
开源精神的回归:10万亿 Token 的馈赠
NVIDIA 承诺将开源模型权重、训练软件(NeMo-RL/Gym)、训练配方,甚至包括 10 万亿 Token 的数据集(在版权允许范围内)。
这种透明度在当今闭源大模型盛行的环境下显得尤为珍贵。它不仅提供了一个强大的工具,更提供了一套可复制的工业化大模型生产流程。
金句思考:
智能的上限由算法决定,但智能的下限由效率决定。Nemotron 3 证明了,当算法真正理解了硬件的苦衷,效率的提升本身就是一种进化。
未来的 AI Agent 不再是昂贵的数字奢侈品,而是像电力一样,随处可见、按需分配、高效流动的生产要素。
原文链接:arxiv.org/abs/2512.20856
