i陆三金 25-02-18 15:08
微博认证:AI博主

DeepSeek 新发布的 NSA:一种与硬件一致且本机可训练的稀疏注意力机制,用于超快速的长上下文训练和推理!

NSA 的核心组件:
• 动态分层稀疏策略
• 粗粒度标记压缩
• 细粒度的 token 选择

💡 NSA 针对现代硬件进行了优化设计,加快了推理速度,同时降低了预训练成本,且不影响性能。它在一般基准、长上下文任务和基于指令的推理方面的表现与全注意力模型相当甚至更好。

论文:http://t.cn/A61cNQPH

发布于 美国