OneFlow 25-06-30 10:00
微博认证:北京一流科技有限公司

#大模型日报# #ai前沿动态#

【既不使用注意力机制也不使用循环结构的神经网络架构】

链接:http://t.cn/A6DhOh7D
论文概述:Avey是一种不依赖注意力和循环机制的创新语言模型架构,它通过独特的排序器和神经处理器解耦了序列长度与上下文宽度,从而在保持短程任务竞争力的同时,实现了对超长序列(如64k词元)的卓越外推能力和极低的推理延迟,尤其是在其训练上下文仅为512词元的情况下,这一反直觉的结果挑战了现有长程依赖建模的认知。

发布于 北京