#谷歌DeepMind全新MoR架构问世#就在刚刚,KAIST、Mila和谷歌DeepMind团队等放出重磅炸弹——
一个名为Mixture-of-Recursions的全新LLM模型架构。
这个崭新的架构,被业内认为有潜力成为Transformer杀手!
它的推理速度提升2倍,训练FLOP减少,KV缓存内存直接减半。
最终,在135M到1.7B的参数规模下,MoR直接划出了一个新的帕累托前沿:相同的训练FLOPs,但困惑度更低、小样本准确率更高,并且吞吐量提升超过2倍。
全面碾压传统的Transformer!
论文链接:http://t.cn/A6kKLHUm
