NVIDIA发布Nemotron 3模型

[CL]《NVIDIA Nemotron 3: Efficient and Open Intelligence》N A Blakeman, A Grattafiori, A Basant, A Gupta... [NVIDIA] (2025)

NVIDIA 发布了 Nemotron 3 系列模型，这不仅是开源模型的一次迭代，更是对“推理效率”与“智能边界”关系的重新定义。

从 Nano 到 Super 再到 Ultra，Nemotron 3 试图解决一个核心矛盾：如何在有限的计算资源下，实现最强的 Agent 智能。

以下是该模型家族的核心技术突破与深度思考：

混合架构的终极形态：Mamba 与 Transformer 的联姻
Nemotron 3 采用了 Hybrid Mamba-Transformer MoE 架构。传统的 Transformer 在处理长文本时，KV Cache 的线性增长是推理成本的噩梦。NVIDIA 的策略是：将昂贵的自注意力层最小化，大量交替使用计算成本极低的 Mamba-2 层。
这种设计让模型在推理吞吐量上实现了飞跃。例如，Nano 30B 在处理推理任务时，吞吐量达到了同类模型 Qwen3 的 3.3 倍。这告诉我们：未来的智能不应被显存带宽绑架，高效的序列建模才是 Agent 规模化的基石。

LatentMoE：针对硬件瓶颈的精准手术
这是 Nemotron 3 最具启发性的创新。NVIDIA 意识到，MoE 模型的瓶颈在于内存带宽和节点间通信。
LatentMoE 将 Token 投影到一个更小的潜空间（Latent Space）进行路由和专家计算。这意味着在不增加通信开销的前提下，可以显著增加专家总数和激活专家数。
结果是：在相同的计算预算下，模型精度大幅提升。这是一种“硬件感知”的算法设计，体现了 NVIDIA 对算力底层逻辑的深刻理解。

NVFP4 训练：开启极低精度训练时代
Nemotron 3 证明了在 25 万亿 Token 的超大规模预训练中，使用 NVFP4（4位浮点数）是可行且稳定的。相比 FP8，FP4 的峰值吞吐量提升了 3 倍。
虽然在 Mamba 输出层等敏感部位保留了高精度以维持稳定性，但整体向低精度迈进的趋势不可阻挡。这意味着未来的模型训练将更快、更省电，算力民主化的门槛正在被技术手段进一步拉低。

100万长上下文：从“能看到”到“能理解”
Nemotron 3 支持高达 1M Tokens 的上下文长度。由于 Mamba 层的存在，它天然规避了 RoPE（旋转位置编码）在长文本外推时的分布偏移问题。
实验显示，其负对数似然（NLL）随着序列长度增加而持续下降，这意味着模型在处理百万级代码或文档时，是真的在“吸收”信息，而非简单的机械重复。对于需要处理海量历史记录的 AI Agent 而言，这是质的突破。

多环境强化学习：拒绝单一赛道的进化
不同于以往分阶段的训练，Nemotron 3 在后训练阶段采用了多环境同步强化学习（Multi-environment RL）。它同时在代码、数学、工具使用、长文本等多个环境中进化。
这种“全能型”训练避免了模型在习得新技能时遗忘旧技能（Catastrophic Forgetting）。配合 GRPO 算法，模型在复杂任务中的推理稳定性得到了极大的增强。

颗粒度推理预算控制：智能的“油门”由你掌控
Nemotron 3 延续并强化了推理时间预算控制。用户可以根据应用场景，精确指定模型“思考”的最大 Token 数。
在需要快速响应的简单任务中，缩短思考链；在复杂的逻辑难题中，释放全部算力。这种灵活性让 AI 能够像人类一样，根据问题的难易程度分配注意力。

开源精神的回归：10万亿 Token 的馈赠
NVIDIA 承诺将开源模型权重、训练软件（NeMo-RL/Gym）、训练配方，甚至包括 10 万亿 Token 的数据集（在版权允许范围内）。
这种透明度在当今闭源大模型盛行的环境下显得尤为珍贵。它不仅提供了一个强大的工具，更提供了一套可复制的工业化大模型生产流程。

金句思考：
智能的上限由算法决定，但智能的下限由效率决定。Nemotron 3 证明了，当算法真正理解了硬件的苦衷，效率的提升本身就是一种进化。
未来的 AI Agent 不再是昂贵的数字奢侈品，而是像电力一样，随处可见、按需分配、高效流动的生产要素。

原文链接：arxiv.org/abs/2512.20856

发布于北京