腾讯混元发布CL-bench评估集

难倒一众大模型，腾讯“语境学习”评估集CL-bench

> 目前上下文工程作用有限、归纳比演绎更难。

2月3号，腾讯混元发布“语境学习”评估集CL-bench，发现模型对复杂语境学习解决真实问题的能力约等于零[doge]（表现最好的GPT5.1任务解决率23.7%）

换句话说，就算能靠Skills、上下文工程解决“喂数据”问题，但如果模型难以从中演绎、归纳，那喂再多也是“对牛弹琴”。

题目主要是通过“新规则”或“新数据”来解决问题，文章给了四个简要例子，如图三，分类如图四。

看起来题目花了很多心思：“平均而言，领域专家花费约 20 小时标注每个 context ，以确保任务构建的质量和深度。”

论文提到，用大模型来评估结果（LM-as-a-judge），这样自动评估其实比人类评估有价值，毕竟可以用于模型训练。

但这个裁判模型就是排第一的GPT5.1[doge]多少会引起质疑。论文直接补充，引入了其他模型，并且人类专家抽查，结果准确率都超过90%，可见完全可以接受。

根据个人经验，大模型也不记得自己输出过什么，不像人那样偏好自己产出。

论文还有更细分的表格（图五），从中能看出归纳比演绎更难

此外，评分系统相当严格，要通过所有评分规则才记分。

发布于广东