张岱樾 26-03-16 15:05
微博认证:AI博主

刚出炉的AI Agent论文,几个结论值得看。
论文题目:SkillsBench: Benchmarking How Well Agent Skills Work Across Diverse Tasks
论文链接:arxiv.org/abs/2602.12670

SkillsBench是第一个专门评估Agent“技能包”效果的基准。他们跑了84个任务、11个领域、7300多条实验轨迹,结论挺有意思:

1. 人工策划的技能包确实有用
平均通过率从24.3%提到40.6%,涨了16个百分点。医疗领域最夸张,直接+51.9%。预训练覆盖越少的领域,技能包越能帮上忙。

2. 让AI自己写技能包,基本没用
模型自己生成的技能包,平均通过率21.0%,比不用技能包还低1.3个百分点。模型知道自己缺领域知识,但生成的程序太模糊,落地不了。

3. 少即是多,2-3个最合适
超过4个技能包,收益开始往下掉。给一堆文档反而负增益,模型被信息淹没了,抓不住重点。

4. 小模型+好技能包 > 大模型裸跑
Claude Haiku 4.5配上技能包,干过了裸跑的Claude Opus 4.5。说明选便宜模型+好好策划技能,可能比一味升级模型更划算。

总结一下:有效的技能包需要人亲手策划,AI自己还搞不定这事。
#科技先锋官# #ai创造营#

发布于 广东