Vcc:通过优先考虑重要tokens将Transformer扩展到128K个tokens或更多
与竞争基线相比,所提出的算法不仅高效(在4K和16K长度上比基线实现了超过3倍的效率提升),而且在大量任务上实现了竞争性或更好的性能。此外,显示算法可以扩展到128K个令牌(或更多),同时始终提供准确性改进。
论文:http://t.cn/A6N8EPEt
项目首页:http://t.cn/A6N8EPEc
发布于 美国
Vcc:通过优先考虑重要tokens将Transformer扩展到128K个tokens或更多
与竞争基线相比,所提出的算法不仅高效(在4K和16K长度上比基线实现了超过3倍的效率提升),而且在大量任务上实现了竞争性或更好的性能。此外,显示算法可以扩展到128K个令牌(或更多),同时始终提供准确性改进。
论文:http://t.cn/A6N8EPEt
项目首页:http://t.cn/A6N8EPEc