MiniMax需1T参数模型

MiniMax现在就应该集中精力搞了一个1T及以上的主力模型。
参数上不来，智能就上不来，MiniMax-M3 开源了，参数428B，这个还是不够的。
现在国产开源模型，好几家都是1T及以上的模型了。

官方说明：
MiniMax-M3 是一个原生多模态模型，上下文长度达 1M。其总参数量约为 4280 亿，激活参数量约为 230 亿。

亮点：

原生多模态能力： M3 从训练初始阶段即采用混合模态训练，实现文本、图像和视频之间更深层次的语义融合。
通过稀疏注意力实现上下文扩展： M3 引入了 MiniMax 稀疏注意力（MSA），显著提升长上下文处理效率。在 1M 上下文长度下，相比 M2，M3 的预填充（prefill）速度提升 9 倍，解码（decode）速度提升 15 倍，每 token 的计算量降至原来的 1/20。
编程与协同能力： M3 在长周期智能体基准测试中达到前沿水平，在编程和协同任务方面表现卓越。

模型地址:www.modelscope.cn/models/MiniMax/MiniMax-M3

发布于江苏