贾凡-失落的大蒜 26-02-22 22:59

skillsbench推出的skills的一份基准测试能力,里面有很多观点挺有意思(上一个微博数据就是来自这里)。

核心观点如下:
1.Claude Code + Opus 4.5 的绝对提升最高,见图1
2.Skills 并非在所有领域都有效(Healthcare、Manufacturing提升高)见图2
3.自动生成的技能几乎毫无帮助 图3
4.技能设计不是越多越好、越长越好
5.Skills + 小模型可能由于无skills的大模型 图4 他的实验是Claude Haiku 4.5 + Skills = 27.7% > Opus 4.5(无 Skills)= 22.0%

建议查看原文skillsbench.ai/blogs/introducing-skillsbench

发布于 辽宁