#谷歌DeepMind全新MoR架构问世#就在刚刚，KAIST、Mila和谷歌DeepMind团队等放出重磅炸弹——一个名为Mixture-of-Recursions的全新LLM模型架构。这个崭新的架构，被业内认为有潜力成为Transformer杀手！它的推理速度提升2倍，训练FLOP减少，KV缓存内存直接减半。最终，在135M到1.7B的参数规模下

#谷歌DeepMind全新MoR架构问世#就在刚刚，KAIST、Mila和谷歌DeepMind团队等放出重磅炸弹——

一个名为Mixture-of-Recursions的全新LLM模型架构。

这个崭新的架构，被业内认为有潜力成为Transformer杀手！

它的推理速度提升2倍，训练FLOP减少，KV缓存内存直接减半。

最终，在135M到1.7B的参数规模下，MoR直接划出了一个新的帕累托前沿：相同的训练FLOPs，但困惑度更低、小样本准确率更高，并且吞吐量提升超过2倍。

全面碾压传统的Transformer！

论文链接：http://t.cn/A6kKLHUm