[LG]《Active Learning with Low-Rank Structure for Data Selection》V Cohen-Addad, S Kunapuli, V Mirrokni, M Nikdan… [Google Research & UC Berkeley] (2026)
在数据选择中,面对大规模数据集,如何高效识别最具信息量的子集一直是瓶颈。传统的聚类方法假设数据具有局部几何结构,但现代高维数据往往隐含全局代数结构——这正是低秩逼近能捕捉但聚类会遗漏的。
本文的核心洞见是:把行子集选择重新看作基于低秩结构的残差采样问题。由此,通过投影分解和灵敏度得分,使得加权子集能以O(k+1/ε²)的规模近似完整数据集的平均损失,误差界与数据的秩k逼近成本Φ_k(D)直接相关。
这项工作真正的遗产是揭示低秩结构对数据选择的主导作用——在LLM微调等任务上,它超越聚类方法并展现跨模型迁移性。但未来的门槛在于如何在计算成本与理论保证间取舍,以及低秩假设在极端噪声或完全非结构化数据中的失效边界。
arxiv.org/abs/2606.16045 #机器学习# #人工智能# #论文# #AI创造营#
发布于 北京
