karminski-牙医 26-02-13 13:19
微博认证:AI博主

啊? 一个月一个版本? MiniMax-M2.5 4000万 token 实测!

昨天刚说完国产大模型进入了每月迭代的节奏, 今天测试就来了! 给大家带来 MiniMax-M2.5 的编程、Agent、长上下文能力全面测试!

这次总计消耗大约 4000 万 token, 跑完了指令遵循、物理仿真、长文本召回和 Agent 外卖骑手等整套测试.

测试重点:
指令遵循(洛希极限): 部分遵循率 80%, 完全正确率 65.9%;
大象牙膏与鞭炮测试: 物理细节明显提升, 尤其 4 substep 迭代后几乎看不到穿模;
长文本召回: 均值 96.7%+, 但出现无参考也有 50.1% 正确率的异常, 本次分数仅作参考;
Agent 测试: 总分 599, 较 M2.1 提升 42.8%, 每公里利润提升 36.5%, 准时率从 48.4% 提升到 69.6%.

另外还有一个很惊喜的点: MiniMax-M2.5 输出速度可以稳定在 100 token/s, 配合 10B 激活参数, 在追求吞吐和响应速度的 Agent 场景里优势非常明显 (用 OpenClaw 的同学是不是已经跃跃欲试了哈哈哈). 另外API并发给得也很高.

一句话评价: 这版 MiniMax-M2.5 是 "性价比+实用性" 都在线的升级版, 值得重点关注.

(P.S. 本次评测使用的是内测API)
#HOW I AI##MiniMax##MiniMax-M2.5##AIAgent##AI编程# http://t.cn/AXtyHup7

发布于 北京