MSA高性能注意力库

MiniMax Sparse Attention（MSA）是一套面向 NVIDIA SM100 的高性能注意力内核库，同时提供稠密 FlashAttention 与稀疏 Top-K 注意力实现。项目包含两套可独立运行的编译栈：基于 csrc 的 JIT 内核和基于 CuTe-DSL 的完整稀疏注意力实现，可在同一 Python 包内无缝切换。

MSA 支持密集预填充、分页预填充、稀疏预填充以及解码路径，覆盖 BF16、FP8、NVFP4、FP4 等多种精度，并提供配套的稀疏索引器、代理 KV 选择与 paged FP8 解码封装。所有内核均支持通过 kernels 库一键调用，也可直接 pip 安装后本地运行。

GitHub：github.com/MiniMax-AI/MSA

主要特性：
- 同时提供稠密与稀疏注意力内核，适配 SM100 硬件特性；
- 支持代理 KV 选择与 Top-K 稀疏索引，降低长序列计算开销；
- 完整支持 FP8 / NVFP4 / FP4 量化与 paged 解码路径；
- 提供 JIT 编译与 CuTe-DSL 两套运行时，可按需切换；
- 内置全面的正确性测试、回归测试与性能基准脚本。

项目采用 MIT 协议，适合研究机构与大模型推理团队在 SM100 平台上集成使用。

#AI创造营# #人工智能#

发布于北京