AI技能包效果研究发布

刚出炉的AI Agent论文，几个结论值得看。
论文题目：SkillsBench: Benchmarking How Well Agent Skills Work Across Diverse Tasks
论文链接：arxiv.org/abs/2602.12670

SkillsBench是第一个专门评估Agent“技能包”效果的基准。他们跑了84个任务、11个领域、7300多条实验轨迹，结论挺有意思：

1. 人工策划的技能包确实有用
平均通过率从24.3%提到40.6%，涨了16个百分点。医疗领域最夸张，直接+51.9%。预训练覆盖越少的领域，技能包越能帮上忙。

2. 让AI自己写技能包，基本没用
模型自己生成的技能包，平均通过率21.0%，比不用技能包还低1.3个百分点。模型知道自己缺领域知识，但生成的程序太模糊，落地不了。

3. 少即是多，2-3个最合适
超过4个技能包，收益开始往下掉。给一堆文档反而负增益，模型被信息淹没了，抓不住重点。

4. 小模型+好技能包 > 大模型裸跑
Claude Haiku 4.5配上技能包，干过了裸跑的Claude Opus 4.5。说明选便宜模型+好好策划技能，可能比一味升级模型更划算。

总结一下：有效的技能包需要人亲手策划，AI自己还搞不定这事。
#科技先锋官# #ai创造营#

发布于广东