机器之心Pro
26-03-19 11:45 微博认证:机器之心官方微博

文章中提出了一种新的记忆架构,MSA(Memory Sparse Attention),通过记忆稀疏注意力机制、实现超长上下文外推的文档级旋转位置编码(Document-wise RoPE)、KV 缓存压缩与内存并行,以及支持复杂推理的记忆交错(Memory Interleave)机制,实现了 100M 长度的大模型长时记忆框架,在主流的长文本问答、大海捞针等评测上,取得了业界领先的结果。 http://t.cn/AXfcb1P8