#大模型日报# #ai前沿动态#
【既不使用注意力机制也不使用循环结构的神经网络架构】
链接:http://t.cn/A6DhOh7D
论文概述:Avey是一种不依赖注意力和循环机制的创新语言模型架构,它通过独特的排序器和神经处理器解耦了序列长度与上下文宽度,从而在保持短程任务竞争力的同时,实现了对超长序列(如64k词元)的卓越外推能力和极低的推理延迟,尤其是在其训练上下文仅为512词元的情况下,这一反直觉的结果挑战了现有长程依赖建模的认知。
发布于 北京
