【科学家提出动力学扩展定律，让稀疏注意力问题解决率最高提高60%，支持更长的文本生成】近日，美国#卡内基梅隆大学# 助理教授陈贝迪和团队提出了“动力学扩展定律”（Kinetics Scaling Law）。在该定律的指导之下，当在#英伟达# B200 上实现相同精度时，资源需求最高可降低至原来的三分之一。同

【科学家提出动力学扩展定律，让稀疏注意力问题解决率最高提高60%，支持更长的文本生成】

近日，美国#卡内基梅隆大学# 助理教授陈贝迪和团队提出了“动力学扩展定律”（Kinetics Scaling Law）。在该定律的指导之下，当在#英伟达# B200 上实现相同精度时，资源需求最高可降低至原来的三分之一。

同样是在该定律的指导之下，在 AIME 和 LiveCodeBench 上，稀疏注意力在低成本模式下将问题解决率提高了 60%，在高成本模式下提高了 5% 以上。

#动力学# 扩展定律的核心观点是：在测试时扩展（TTS，Test-time scaling）任务中，影响性能的主要因素不是参数数量，而是注意力机制的计算成本。本次研究团队证明，稀疏注意力从根本上重塑了扩展格局，使得生成内容的长度更长、精度更高。

其在论文中表示，稀疏动力学可能预示着一种新范式，这种新范式使得即便在预训练进入平台期后仍能推动持续进步。

戳链接查看详情：http://t.cn/A6eQdBpk