猫在飞fly 26-03-08 18:37
微博认证:知名财经博主 头条文章作者

OpenClaw 创始人 Peter Steinberger 分享了龙虾基准测试排行榜。
一口气测了 32 款主流大模型
从成功率、速度、费用三个维度,看看哪个模型最适合养龙虾
Google 的 Gemini 3 Flash Preview 以 95.1% 的成功率夺冠
根据这三个榜单
🏆 如果你追求成功率,无脑选 Gemini 3 Flash
95.1% 的成功率 + 0.72 美元的成本,目前综合表现最优。适合对代码质量要求高的生产环境,出错的代价远大于模型成本的时候,选它准没错。
⚡ 如果你追求速度,选 MiniMax M2.5 或 Gemini 2.0 Flash
都在 106 秒左右完成全部任务,适合快速原型开发、需要频繁迭代的场景。时间就是金钱,这俩能帮你省下不少耐心。
💰 如果你追求性价比,选 Gemini 2.5 Flash Lite
0.05 美元的成本,83.2% 的成功率,是入门「养龙虾」的最佳选择。个人项目、小团队、预算有限的场景,闭眼入。
如果想少折腾倾向国产模型,MiniMax M2.1 和 Kimi K2.5 都很能打
----上文转发-----
完全榜单见评论区

发布于 山西