MiniMax 今日正式发布了新一代 Agent 旗舰大模型 M2.7,并业界首次系统展示了「模型自我进化」的技术路径。
该模型通过构建名为 Agent Harness 的创新体系,据称能够让模型深度参与到自身的训练与优化流程之中。MiniMax 表示,在部分内部研发场景中,M2.7 已能承担约 30% 至 50% 的工作量,并在内部评测集上实现了约 30% 的效果提升。
据官方介绍,在核心的编程与软件工程能力上,M2.7 可表现出与国际一线模型比肩的水准:在 SWE-Pro 基准测试中,M2.7 以 56.22% 的正确率追平了 GPT-5.3-Codex;在考验仓库级别代码生成的 VIBE-Pro 基准上,其得分 55.6%,几乎与 Opus 4.6 持平。
M2.7 的另一大亮点在于其强大的「专业办公 + 复杂环境交互能力」。在 GDPval-AA 评测中,M2.7 的 ELO 得分达到 1495,为开源模型中的最高分。M2.7 模型对 Excel、PPT、Word等办公软件的复杂编辑能力得到显著提升,并能精准遵循长周期、多步骤的复杂指令。在包含超过 2000 token 的复杂 skills 测试中,其 skills 遵循率仍能保持在 97%。
除了以上的生产力场景,M2.7 也在「互动娱乐」场景有所突破。在强化身份保持能力和情商的基础上,M2.7 模型能够更好地支持角色扮演和长程对话。同时,MiniMax 也开源了基于 M2.7 的交互系统原型 OpenRoom,旨在探索 AI 在虚拟空间中更主动、更自然的交互方式。
目前,M2.7 模型已在 MiniMax 的 Agent 平台和开放平台全量上线,面向用户和开发者同时开放。
发布于 湖北
