互联网的那点事 26-03-09 09:40
微博认证:微博互联网观察家

OpenClaw AI Agent 小龙虾能力排行榜

专门测试各家大模型在 OpenClaw 框架下执行实际编码任务的成功率。

用一套标准化的 OpenClaw Agent 任务来跑各个模型,通过自动化检查 + LLM 评审来打分,衡量每个模型完成任务的成功率。

前三名分别为:

Gemini 3 Flash Preview
MiniMax M2.1
Kimi K2.5

然后是:

Claude Sonnet 4.5
Gemini 3 Pro Preview
Claude Haiku 4.5
Claude Opus 4.6

Claude 家族三个模型都在 90% 以上,GPT-5.2 反而只有 65.6% 排名靠后,DeepSeek V3.2 在 82% 左右。

发布于 安徽