新智元 25-07-17 15:17
微博认证:新智元官方微博

#谷歌DeepMind全新MoR架构问世#就在刚刚,KAIST、Mila和谷歌DeepMind团队等放出重磅炸弹——

一个名为Mixture-of-Recursions的全新LLM模型架构。

这个崭新的架构,被业内认为有潜力成为Transformer杀手!

它的推理速度提升2倍,训练FLOP减少,KV缓存内存直接减半。

最终,在135M到1.7B的参数规模下,MoR直接划出了一个新的帕累托前沿:相同的训练FLOPs,但困惑度更低、小样本准确率更高,并且吞吐量提升超过2倍。

全面碾压传统的Transformer!

论文链接:http://t.cn/A6kKLHUm