知未科技 26-03-09 11:53
微博认证:知未科技官方微博

最近,OpenClaw(国内俗称“龙虾”)不光是在咱们这火,在国外科技圈更火。然后就出现了专门测AI大模型在“龙虾”中表现的PinchBench排行榜,连OpenClaw创始人都转了。
其中,最引人关注的是成功率榜单。
先说排名,Google的Gemini 3 Flash Preview以95.1%的成功率拿下头名;排第二的是MiniMax M2.1,成功率93.6%;Kimi K2.5第三,成功率 93.4%。然后你会发现,GPT、DeepSeek、Grok全拉了。
再简单看下细节,在OpenClaw环境下,轻量化模型更吃香、旗舰大模型反倒不那么灵。国产开源模型十分能打,甚至表现出了“弱而强”的亮眼成绩(资金、训练硬件弱,性能表现强)。
最后补充,“龙虾”本身不出产AI,只是AI的搬运工,能力如何需要看具体接哪根AI的管子,这同时涉及用户的使用成本——某些模型用着死贵、某些性价比极高。根据上述榜单,Gemini 3 Flash Preview和MiniMax M2.1都能无脑选,准、快、便宜。