模型速度提升2.42倍|nvidia research|nemotron-labs-twotower|nemotron-3-nano-30b-a3b|30b模型|并行写入|速度提升

我们将一个 30B 模型分成两部分，以便并行写入 token，而不是逐个写入。

介绍 Nemotron-Labs-TwoTower：来自 NVIDIA Research 的扩散语言模型，由 Nemotron-3-Nano-30B-A3B 改编而成。以下是其工作原理：一半负责保留上下文，另一半负责写入 token，两者都重用了预训练模型，而不是从头训练一个新的模型。

我们发现，它保留了原始模型 98.7% 的质量，同时生成速度提高了 2.42 倍。

发布于北京