karminski-牙医 25-12-08 06:49
微博认证:AI博主

刚看了SWE-Benchverified最新测试结果,MiniMax-M2 成为了得分最高的开放权重大模型!

Minimax M2目前是开源模型里的王者,agent能力很强,但官方说测试耗费了很多token,不过它的长任务处理能力真的很棒,200+步都能稳住。

Deepseek v3.2 reasoning版本紧追其后,价格便宜到感人,就是速度慢了点。如果不急着用,这个性价比确实无敌。100步左右就能达到很好的效果了。

GLM 4.6这次表现很均衡,速度快价格低,性能也不错,算是性价比之王了。跟qwen3 coder 480b a35b水平差不多,但响应快很多。

总体来说现在开源模型进步挺快的,虽然跟Gemini 3 pro、Claude 4.5 Opus这些闭源模型还有差距,但在不断追赶头部商业大模型。

#ai创造营##ai生活指南#

发布于 日本