哪个模型最适合小龙虾?可以看看PinchBench 的跑分。
PinchBench 是一个用于评估 LLM 作为 OpenClaw 编码代理的基准测试系统。会在不同模型上运行同一组真实世界任务,并衡量成功率、速度和成本,以帮助开发者为其使用场景选择合适的模型。
最高的gemini-3-flash-preview,然后是minimax-m2.1和kimi-k2.5
#How I AI#
发布于 山东
