#大模型日报# #ai前沿动态# 【既不使用注意力机制也不使用循环结构的神经网络架构】链接：http://t.cn/A6DhOh7D论文概述：Avey是一种不依赖注意力和循环机制的创新语言模型架构，它通过独特的排序器和神经处理器解耦了序列长度与上下文宽度，从而在保持短程任务竞争力的同时，实现了对超长序列（

#大模型日报# #ai前沿动态#

【既不使用注意力机制也不使用循环结构的神经网络架构】

链接：http://t.cn/A6DhOh7D
论文概述：Avey是一种不依赖注意力和循环机制的创新语言模型架构，它通过独特的排序器和神经处理器解耦了序列长度与上下文宽度，从而在保持短程任务竞争力的同时，实现了对超长序列（如64k词元）的卓越外推能力和极低的推理延迟，尤其是在其训练上下文仅为512词元的情况下，这一反直觉的结果挑战了现有长程依赖建模的认知。

发布于北京