模型任务完成轮次评价标准

有人说，怎么评价一个模型是不是达到了claude 4.5 opus的程度？
这不是看个人品位和偏好。
对于一个能做事的模型来说，我来说一个评价的标准。
就是在同样提示词的情况下，完成任务的轮次如何。
最优秀的模型就是可以一次性把事情做对。

什么叫笨？
就是它要做好几次才能做对，这个就叫笨。
但是最终也能做好，就叫可用。

比如说一个项目，有两个任务，一个是建立基本框架，二是在基本框架上完成功能。
claude 4.5 opus和gpt 5.2 codex这两个模型都只要两轮。
每一轮，都成功把事情做对，没有错误。

kimi k2 thinking和glm 4.6，两轮完成，有错误，需要第三轮进行修改。
这个可以完成，所以说达到基本可用。
kimi 2.5基本做到了前两轮就搞定，不需要第三轮，进步很大。
已经逼近顶尖闭源大模型的水平了。
glm 4.7有明显提升，但是还是需要第三轮提出修改建议。

minimax m2.1多轮下来，也能改对，就是说也达到基本可用了。

所谓聪明，就是说做同样一件事情，需要的轮次少。
最好就是一次做对，你就觉得它聪明，省心，体验舒适。
做好几次，你就觉得很烦，改几次也改不好，体验就不舒适了。
还有些模型，明明前面搞对了，后面自己乱改，就改错了。
这就是很笨，基本没法用，瞎改来着。

gpt 5.2 codex的编程能力其实很强的，但是可以全面性不如claude 4.5 opus。

发布于江苏