[LG]《Learn from your own latents and not from tokens: A sample-complexity theory》D J. Korchinski, A Favero, M Wyart [EPFL & University of Cambridge & Johns Hopkins University] (2026)
在生成式人工智能领域,模型训练所需数据量远超生物学习者是一个悬而未决的难题。过去的方法受困于极低的学习效率,本质原因是 token 级别的预测目标导致统计信号在层级结构中逐层稀释,使得样本复杂度随隐藏树深度的增加呈指数级爆炸。
本文的核心洞见是:把自监督学习重新看作对自身内部表征的递归聚类过程。由此,预测自身潜变量而非原始符号这一关键操作使问题得以解开。这种机制让模型在抽象空间中直接捕捉同义不变性,将原本指数级的样本需求降至常数级别,实现了跨越层级的认知跳跃。
这项工作真正留下的遗产是为潜变量预测方法提供了首个样本复杂度理论证明。它为后来者打开的新门是设计能突破现有缩放法则的超高效架构,并揭示了现有模型中隐含的分层监督机制,但尚未跨过的门槛是将该理论从固定拓扑的随机分层模型推广到具备递归特征的真实自然语言中。
arxiv.org/abs/2605.27734 #机器学习# #人工智能# #论文# #AI创造营#
发布于 北京
