[CL]《Spokes: Optimizing for Diverse Pretraining Data Selection》C Lee, Y Choi, L Zettlemoyer, P W Koh… [DSO National Laboratories & Stanford University & University of Washington] (2026)
在大规模预训练数据选择中,多样性被公认为关键,但优化它面临根本性困难:多样性是集合层面的属性,依赖数据点间的相互作用而非单个样本。现有方法多依赖聚类或启发式近似,导致对长尾知识的覆盖不足,难以在预训练规模上可靠地提取多样化子集。
本文核心洞见是:将多样性优化从离散的组合问题松弛为连续权重优化,直接最大化G-Vendi得分——一个在梯度空间衡量数据点间独立性的指标。通过指数梯度下降在单纯形约束下求解,SPOKES绕过了组合爆炸,使得每个数据点对整体多样性的贡献都被精确计算和权衡。
这项工作留下的遗产是证明了直接多样性优化在预训练规模上既可行又有效。它为后来者打开的新门是:质量与多样性并非对立,联合优化能在DCLM和FineWeb上分别获得+1.5和+1.4点收益。但尚未跨过的门槛是:梯度计算成本仍然显著,方法的泛化性依赖于代理模型的选择。
arxiv.org/abs/2606.15216 #机器学习# #人工智能# #论文# #AI创造营#
发布于 北京
