SWE-Bench测试结果公布

刚看了SWE-Benchverified最新测试结果，MiniMax-M2 成为了得分最高的开放权重大模型！

Minimax M2目前是开源模型里的王者，agent能力很强，但官方说测试耗费了很多token,不过它的长任务处理能力真的很棒，200+步都能稳住。

Deepseek v3.2 reasoning版本紧追其后，价格便宜到感人，就是速度慢了点。如果不急着用，这个性价比确实无敌。100步左右就能达到很好的效果了。

GLM 4.6这次表现很均衡，速度快价格低，性能也不错，算是性价比之王了。跟qwen3 coder 480b a35b水平差不多，但响应快很多。

总体来说现在开源模型进步挺快的，虽然跟Gemini 3 pro、Claude 4.5 Opus这些闭源模型还有差距，但在不断追赶头部商业大模型。

#ai创造营##ai生活指南#

发布于日本