【科学家提出动力学扩展定律,让稀疏注意力问题解决率最高提高60%,支持更长的文本生成】
近日,美国#卡内基梅隆大学# 助理教授陈贝迪和团队提出了“动力学扩展定律”(Kinetics Scaling Law)。在该定律的指导之下,当在#英伟达# B200 上实现相同精度时,资源需求最高可降低至原来的三分之一。
同样是在该定律的指导之下,在 AIME 和 LiveCodeBench 上,稀疏注意力在低成本模式下将问题解决率提高了 60%,在高成本模式下提高了 5% 以上。
#动力学# 扩展定律的核心观点是:在测试时扩展(TTS,Test-time scaling)任务中,影响性能的主要因素不是参数数量,而是注意力机制的计算成本。本次研究团队证明,稀疏注意力从根本上重塑了扩展格局,使得生成内容的长度更长、精度更高。
其在论文中表示,稀疏动力学可能预示着一种新范式,这种新范式使得即便在预训练进入平台期后仍能推动持续进步。
戳链接查看详情:http://t.cn/A6eQdBpk
