难倒一众大模型,腾讯“语境学习”评估集CL-bench
> 目前上下文工程作用有限、归纳比演绎更难。
2月3号,腾讯混元发布“语境学习”评估集CL-bench,发现模型对复杂语境学习解决真实问题的能力约等于零[doge](表现最好的GPT5.1任务解决率23.7%)
换句话说,就算能靠Skills、上下文工程解决“喂数据”问题,但如果模型难以从中演绎、归纳,那喂再多也是“对牛弹琴”。
题目主要是通过“新规则”或“新数据”来解决问题,文章给了四个简要例子,如图三,分类如图四。
看起来题目花了很多心思:“平均而言,领域专家花费约 20 小时 标注每个 context ,以确保任务构建的质量和深度。”
论文提到,用大模型来评估结果(LM-as-a-judge),这样自动评估其实比人类评估有价值,毕竟可以用于模型训练。
但这个裁判模型就是排第一的GPT5.1[doge]多少会引起质疑。论文直接补充,引入了其他模型,并且人类专家抽查,结果准确率都超过90%,可见完全可以接受。
根据个人经验,大模型也不记得自己输出过什么,不像人那样偏好自己产出。
论文还有更细分的表格(图五),从中能看出归纳比演绎更难
此外,评分系统相当严格,要通过所有评分规则才记分。
发布于 广东
