刚看了SWE-Benchverified最新测试结果,MiniMax-M2 成为了得分最高的开放权重大模型!
Minimax M2目前是开源模型里的王者,agent能力很强,但官方说测试耗费了很多token,不过它的长任务处理能力真的很棒,200+步都能稳住。
Deepseek v3.2 reasoning版本紧追其后,价格便宜到感人,就是速度慢了点。如果不急着用,这个性价比确实无敌。100步左右就能达到很好的效果了。
GLM 4.6这次表现很均衡,速度快价格低,性能也不错,算是性价比之王了。跟qwen3 coder 480b a35b水平差不多,但响应快很多。
总体来说现在开源模型进步挺快的,虽然跟Gemini 3 pro、Claude 4.5 Opus这些闭源模型还有差距,但在不断追赶头部商业大模型。
#ai创造营##ai生活指南#
发布于 日本
