MiniMax-M2.1测试结果发布

现在都流行大模型月更吗? MiniMax-M2.1 实测!

申请 MiniMax-M2.1 内测通过了,给大家带来 MiniMax M2.1 的测试结果:

本次测试较 MiniMax-M2 从编程, Agent能力, 长上下文召回能力均有不小的提升. 尤其是Agent能力和长上下文召回能力达到了摧枯拉朽的程度, 直接叫 MiniMax-M3都不过分.

MiniMax M2.1 在 24 小时总计 300 回合的硅基骑手测试(让大模型调用 tool 送外卖)收益达到了 419.77 元, 总计执行了392次 tool call, 测试使用了大约56%的上下文空间, 这个范围内工具调用均表现良好.

作为对比MiniMax M2, 它的收益是285.27元, 不过只使用了32%的上下文空间, 模型就停止使用 tool call, 不断重复上文了.

MiniMax-M2.1, 在192K长度上下文上有94%的召回水平, 而 MiniMax-M2 只有 52%. 可以说是摧枯拉朽的提升.

另外几个大家熟悉的编程水平测试上也有不同程度的提升. 这次的新模型特别适合大型Agent任务, 有这方面需求的朋友可以试试看.

#ai生活指南##ai创造营##MiniMax##MiniMaxM21##ai写代码##aiagent##KCORES大模型竞技场# http://t.cn/AXUsPLji

发布于北京