张量分解优化AI评估

[LG]《Rich Insights from Cheap Signals: Efficient Evaluations via Tensor Factorization》F M Polo, A Nematzadeh, V Aglietti, A Fisch… [Google DeepMind & University of Michigan] (2026)

在AI评估领域，如何在规模化与精准度之间取得平衡，是一个悬而未决的难题。现有方法要么依赖人工标注——成本高昂无法扩展，要么依赖自动评分器——系统性偏差导致其与真实人类判断脱轨。根本矛盾在于：细粒度的提示级评估需要海量标注，而这在经济上几乎不可行。

本文的核心洞见是：把各类评分器的打分记录重新看作一个三维张量（模型×提示×评分器），并假设其背后存在少数几个低维潜在技能驱动全部条目。由此，张量分解这一关键操作使问题得以解开——先用廉价的自动评分器数据预训练模型和提示的隐向量表示，再用少量人工标注做线性校准，将自动评分的规模优势迁移到预测人类偏好的任务上。

这项工作真正留下的遗产是：为细粒度AI评估建立了一套统计上严谨、样本高效的框架，仅用10%的人工标注即可恢复分类级别的模型排名并量化不确定性。它为后来者打开的新门是：将这一表示学习范式延伸至主动学习、RLHF奖励信号及智能体评估等方向。但尚未跨过的门槛是：低秩假设和有序逻辑模型可能失效，自动评分器与人类判断的相关性依然是前提而非保证，且可选的微调阶段会使置信区间的统计有效性失去保障。

arxiv.org/abs/2603.02029

#机器学习# #人工智能# #论文# #AI创造营#

发布于北京