OpenClaw AI Agent 小龙虾能力排行榜
专门测试各家大模型在 OpenClaw 框架下执行实际编码任务的成功率。
用一套标准化的 OpenClaw Agent 任务来跑各个模型,通过自动化检查 + LLM 评审来打分,衡量每个模型完成任务的成功率。
前三名分别为:
Gemini 3 Flash Preview
MiniMax M2.1
Kimi K2.5
然后是:
Claude Sonnet 4.5
Gemini 3 Pro Preview
Claude Haiku 4.5
Claude Opus 4.6
Claude 家族三个模型都在 90% 以上,GPT-5.2 反而只有 65.6% 排名靠后,DeepSeek V3.2 在 82% 左右。
发布于 安徽
