MiniMax M3终于来了

哇，MiniMax M3 终于来了。

首个集齐三大龙珠的国产开源模型：顶尖编程能力，1M 超长上下文和原生多模态。

来过一遍重点内容：

1、底层架构创新，提出全新的稀疏注意力架构 MSA，解决了 Context Scaling 难题，在支持 1M 上下文的同时大幅降低计算成本，推理速度更快，且能力与全注意力机制打平。

2、原生多模态训练，从零开始进行多模态混合训练，支持图片、视频输入以及电脑桌面操作。团队重构了数据管线，重点利用交错数据将训练 Token 规模提升至 100 万亿量级。

3、编程和 Agent 能力达到国际顶尖水平，为了贴近真实场景，团队构建了交互式用户模拟器框架，重点训练模型在多轮迭代，持续协作和复杂项目中的主动协同能力，而不仅局限于单轮代码生成。

4、几个实际复杂任务的表现。

- 验证前沿学术论文：自主运行近 12 小时，结合多模态（看图表/公式）与长上下文，自主产出 18 次 commit，成功跑通并复现 ICLR 2025 获奖论文的核心实验。
- CUDA 算子优化：在无参考代码的情况下，连续执行约 24 小时，完成 1959 次工具调用。自主经历性能平台期并持续探索，最终实现 9.4 倍加速，将硬件峰值利用率提升至 71.3%。
- 自主“训”模型：在无人工干预下，独立完成 4 个 Base 模型的“数据合成、训练、评测、迭代”全流程，使其具备数学、推理、代码等多项基础能力。

5、配套产品与 API 服务

- MiniMax Code：专为 M3 打造的首选 Agent 产品。支持由 Agent 集群协作的动态 Workflow，具备深度反思与持续纠错能力。得益于 M3 的多模态能力，它还支持 Computer Use（如跨应用/系统的本地桌面自动化操作）。
- 极具性价比的 Token Plan：同等价格下的 Token 额度远超海外竞品（约为 Claude 订阅用量的 15 倍）。
- 双模式 API 与限时优惠： API 开放 thinking（适合复杂推理与 Agent 任务）和 non-thinking（适合低延迟响应）双模式，两者同价并可按需切换。512k 以内的请求，上线首周提供 5 折限时优惠。

传送门：www.minimax.io/models/text/m3

#HOW I AI##国产模型minimaxm3发布##科技先锋官#

发布于北京