黄健楸 26-02-07 09:02
微博认证:AI博主

难倒一众大模型,腾讯“语境学习”评估集CL-bench

> 目前上下文工程作用有限、归纳比演绎更难。

2月3号,腾讯混元发布“语境学习”评估集CL-bench,发现模型对复杂语境学习解决真实问题的能力约等于零[doge](表现最好的GPT5.1任务解决率23.7%)

换句话说,就算能靠Skills、上下文工程解决“喂数据”问题,但如果模型难以从中演绎、归纳,那喂再多也是“对牛弹琴”。

题目主要是通过“新规则”或“新数据”来解决问题,文章给了四个简要例子,如图三,分类如图四。

看起来题目花了很多心思:“平均而言,领域专家花费约 20 小时 标注每个 context ,以确保任务构建的质量和深度。”

论文提到,用大模型来评估结果(LM-as-a-judge),这样自动评估其实比人类评估有价值,毕竟可以用于模型训练。

但这个裁判模型就是排第一的GPT5.1[doge]多少会引起质疑。论文直接补充,引入了其他模型,并且人类专家抽查,结果准确率都超过90%,可见完全可以接受。

根据个人经验,大模型也不记得自己输出过什么,不像人那样偏好自己产出。

论文还有更细分的表格(图五),从中能看出归纳比演绎更难

此外,评分系统相当严格,要通过所有评分规则才记分。

发布于 广东