CRAFT论文提出数据筛选方法

[CL]《CRAFT: Clustered Regression for Adaptive Filtering of Training data》P Panda, A Swain, S Panda [Google & BITS Pilani] (2026)

在大规模训练数据选择领域，从千万级语料中挑出“少而精”的子集是一个悬而未决的难题。过去的方法受困于要么只看表面词频，要么全局最优匹配代价过高，本质原因是忽略源与目标的条件结构。

本文的核心洞见是：把“句对分布”重新看作“源分布与条件目标分布的分解”。由此，先按源侧分布分配预算，再在每类中选取最贴近目标条件结构的样本，完成高效筛选。

这项工作真正留下的遗产是将数据选择从“全局匹配”改写为“分层条件决策”。它为后来者打开的新门是表示无关、可扩展的数据筛选，但尚未跨过的门槛是跨任务与跨模态的泛化能力。

arxiv.org/abs/2604.22693
#机器学习# #人工智能# #论文# #AI创造营#

发布于北京