低秩结构数据选择新方法

[LG]《Active Learning with Low-Rank Structure for Data Selection》V Cohen-Addad, S Kunapuli, V Mirrokni, M Nikdan… [Google Research & UC Berkeley] (2026)

在数据选择中，面对大规模数据集，如何高效识别最具信息量的子集一直是瓶颈。传统的聚类方法假设数据具有局部几何结构，但现代高维数据往往隐含全局代数结构——这正是低秩逼近能捕捉但聚类会遗漏的。

本文的核心洞见是：把行子集选择重新看作基于低秩结构的残差采样问题。由此，通过投影分解和灵敏度得分，使得加权子集能以O(k+1/ε²)的规模近似完整数据集的平均损失，误差界与数据的秩k逼近成本Φ_k(D)直接相关。

这项工作真正的遗产是揭示低秩结构对数据选择的主导作用——在LLM微调等任务上，它超越聚类方法并展现跨模型迁移性。但未来的门槛在于如何在计算成本与理论保证间取舍，以及低秩假设在极端噪声或完全非结构化数据中的失效边界。

arxiv.org/abs/2606.16045 #机器学习# #人工智能# #论文# #AI创造营#

发布于北京