skillsbench推出基准测试能力

skillsbench推出的skills的一份基准测试能力，里面有很多观点挺有意思（上一个微博数据就是来自这里）。

核心观点如下：
1.Claude Code + Opus 4.5 的绝对提升最高，见图1
2.Skills 并非在所有领域都有效（Healthcare、Manufacturing提升高）见图2
3.自动生成的技能几乎毫无帮助图3
4.技能设计不是越多越好、越长越好
5.Skills + 小模型可能由于无skills的大模型图4 他的实验是Claude Haiku 4.5 + Skills = 27.7% > Opus 4.5（无 Skills）= 22.0%

建议查看原文skillsbench.ai/blogs/introducing-skillsbench