蚁工厂
26-04-28 19:44 微博认证:科技博主

DeepSeek-V4论文中CSA(Compressed Sparse Attention)的参考实现。
www.k-a.in/CSA.html

作者把论文中的关键公式逐段落实成 PyTorch 实现,涵盖 token 压缩、稀疏索引、滑动窗口 KV、共享 KV 注意力和输出投影,并拿它和标准多头注意力(MHA)比较 KV cache 占用、训练收敛、前向延迟和长上下文 passkey retrieval 表现。
#AI创造营#

发布于 山东