MiniMax现在就应该集中精力搞了一个1T及以上的主力模型。
参数上不来,智能就上不来,MiniMax-M3 开源了,参数428B,这个还是不够的。
现在国产开源模型,好几家都是1T及以上的模型了。
官方说明:
MiniMax-M3 是一个原生多模态模型,上下文长度达 1M。其总参数量约为 4280 亿,激活参数量约为 230 亿。
亮点:
原生多模态能力: M3 从训练初始阶段即采用混合模态训练,实现文本、图像和视频之间更深层次的语义融合。
通过稀疏注意力实现上下文扩展: M3 引入了 MiniMax 稀疏注意力(MSA),显著提升长上下文处理效率。在 1M 上下文长度下,相比 M2,M3 的预填充(prefill)速度提升 9 倍,解码(decode)速度提升 15 倍,每 token 的计算量降至原来的 1/20。
编程与协同能力: M3 在长周期智能体基准测试中达到前沿水平,在编程和协同任务方面表现卓越。
模型地址:www.modelscope.cn/models/MiniMax/MiniMax-M3
发布于 江苏
