爱可可-爱生活
26-04-28 05:38 微博认证:AI博主 2025微博新锐新知博主

[CL]《CRAFT: Clustered Regression for Adaptive Filtering of Training data》P Panda, A Swain, S Panda [Google & BITS Pilani] (2026)

在大规模训练数据选择领域,从千万级语料中挑出“少而精”的子集是一个悬而未决的难题。过去的方法受困于要么只看表面词频,要么全局最优匹配代价过高,本质原因是忽略源与目标的条件结构。

本文的核心洞见是:把“句对分布”重新看作“源分布与条件目标分布的分解”。由此,先按源侧分布分配预算,再在每类中选取最贴近目标条件结构的样本,完成高效筛选。

这项工作真正留下的遗产是将数据选择从“全局匹配”改写为“分层条件决策”。它为后来者打开的新门是表示无关、可扩展的数据筛选,但尚未跨过的门槛是跨任务与跨模态的泛化能力。

arxiv.org/abs/2604.22693
#机器学习# #人工智能# #论文# #AI创造营#

发布于 北京