爱可可-爱生活
26-06-13 14:08 微博认证:AI博主 2025微博新锐新知博主

MiniMax Sparse Attention(MSA)是一套面向 NVIDIA SM100 的高性能注意力内核库,同时提供稠密 FlashAttention 与稀疏 Top-K 注意力实现。项目包含两套可独立运行的编译栈:基于 csrc 的 JIT 内核和基于 CuTe-DSL 的完整稀疏注意力实现,可在同一 Python 包内无缝切换。

MSA 支持密集预填充、分页预填充、稀疏预填充以及解码路径,覆盖 BF16、FP8、NVFP4、FP4 等多种精度,并提供配套的稀疏索引器、代理 KV 选择与 paged FP8 解码封装。所有内核均支持通过 kernels 库一键调用,也可直接 pip 安装后本地运行。

GitHub:github.com/MiniMax-AI/MSA

主要特性:
- 同时提供稠密与稀疏注意力内核,适配 SM100 硬件特性;
- 支持代理 KV 选择与 Top-K 稀疏索引,降低长序列计算开销;
- 完整支持 FP8 / NVFP4 / FP4 量化与 paged 解码路径;
- 提供 JIT 编译与 CuTe-DSL 两套运行时,可按需切换;
- 内置全面的正确性测试、回归测试与性能基准脚本。

项目采用 MIT 协议,适合研究机构与大模型推理团队在 SM100 平台上集成使用。

#AI创造营# #人工智能#

发布于 北京