karminski-牙医 26-04-19 13:34
微博认证:AI博主

给大家带来 Claude-Opus-4.7 的视觉能力+前端+后端能力测试!

本次测试多模态前端测试采用 pass@3 (相同prompt运行3次取最好结果), 复杂前端测试采用 pass@6, 后端能力测试采用 pass@3.

从测试来看 Claude-Opus-4.7 最大的提升都是视觉能力提升带来的, 包括颜色识别, 细微的画面元素, 都比 Opus-4.6 有明显的提升, 甚至空间理解也变强了. 我觉得用来替代 GPT-5.4-Pro 进行多模态前端交互设计非常不错 (毕竟价格在那摆着).

但是在其余考验硬实力的测试上均有不同程度的下降, 甚至这个下降我觉得不是因为模型能力导致的(只要prompt做更具体的提示, 比如跟他说你要用xxx算法实现), 它其实是能写出来的. 但是如果用在 Harness 场景, 让它自己采取最优的算法自己去实现和验证, 通常就得不到比 Opus-4.6 更好的结果了.

为什么会这样? 核心问题我觉得是这次即使是给到 xhigh 的 reasoning effort 可能它的思考空间(budget)也是不太够的(具体表现就是感觉模型偷懒了), 它的能力强, 但是需要更多的思考才能达到更强的水平. (阴谋论一波这也是为什么官方出了 xhigh 这个 reasoning level).

所以在实际使用中, 如果遇到性能下降问题, 只能反复提示它, 让他跨多个会话反复思考, 才能达到预期的效果.

最后本次测试所有API调用均在 openrouter 完成, 总计开销在 106USD 左右.

#HOW I AI##opus-4.7##claudeopus47# http://t.cn/AXxL6131

发布于 北京