我们将一个 30B 模型分成两部分,以便并行写入 token,而不是逐个写入。
介绍 Nemotron-Labs-TwoTower:来自 NVIDIA Research 的扩散语言模型,由 Nemotron-3-Nano-30B-A3B 改编而成。以下是其工作原理:一半负责保留上下文,另一半负责写入 token,两者都重用了预训练模型,而不是从头训练一个新的模型。
我们发现,它保留了原始模型 98.7% 的质量,同时生成速度提高了 2.42 倍。
发布于 北京
