量子位 25-11-13 16:21
微博认证:量子位官方微博

#Ilya讲无监督学习##无监督学习本质#

Ilya Sutskever在加州大学伯克利分校的讲座,推翻了无监督学习长期以来"有效但无法解释"的尴尬局面。

他通过一套优雅的数学论证,把深度学习的成功,从经验主义带到了算法的严谨层面。

首先理解监督学习为什么有用。

统计学习理论用三行数学式就证明了它的必然性:只要训练数据量大于模型复杂度,低训练误差必然导致低测试误差。简单、优雅、有保证。

但无监督学习呢?

我们优化的是重建损失或去噪损失,却期待它改善毫不相干的下游任务。这种跨越不同目标函数的神奇效果,一直缺乏理论支撑,更像是某种定义不清的魔法。

转折点来自一个思想实验。

想象两个文件X(无标签数据)和Y(有标签任务)。如果用足够好的压缩器独立压缩它们,分别得到长度K(X)和K(Y)。但联合压缩K(X, Y)往往会更短,为什么?因为聪慧的压缩器会识别X和Y之间的共享结构,用X中的模式来帮助编码Y。这个差值K(X) + K(Y) - K(X, Y),就是X和Y之间的算法互信息,也正是无监督学习真正在做的事。

这里有个妙处:无监督学习的有效性,本质上取决于无标签数据中是否真的存在对有标签任务有用的结构。如果数据来自均匀分布,压缩器再强也无能为力。但在真实世界中,数据从来不是随机的。语言文本、自然图像都遵循复杂但可压缩的分布。无监督学习就是在这种自然的数据冗余中,搜寻和利用共享的规律。

理论的终极形式指向科莫哥洛夫复杂度,这个古老而深邃的概念。

K(X)定义为能生成X的最短程序长度。虽然它不可计算,但提供了一个理想的参照点。条件科摩哥洛夫复杂度K(Y|X)则表示,在能访问X的情况下,生成Y需要的最短程序长度。从定义上讲,这就是无监督学习的终极目标。更妙的是,理论证明了一个等价性:通过联合压缩K(X, Y)得到的结果,和通过条件压缩K(Y|X)达成的效果一样好。这意味着你可以不假思索地把所有数据拼在一起交给压缩器,它会自动抽取对下游任务有帮助的所有知识。

现在的问题是,我们如何在实践中逼近这个理想的压缩器?答案就是深度神经网络加随机梯度下降。

把一个拥有数十亿参数的Transformer看作一个可编程电路。SGD的作用,就是在这个电路空间中搜索最能捕捉数据规律、最短的"程序"。模型越大,它能表示的程序空间越广,对理论上最强压缩机的近似就越好,从而遗憾就越少。这解释了为什么我们执着于训练更大的模型:它们在逐步逼近那个拥有零遗憾的终极智慧。

在图像领域,这个理论得到了直接的实验验证。

通过Image GPT,研究者证明了在像素级做自回归预测(Next-Pixel Prediction),能有效转化为对图像的压缩。实验曲线清晰显示,模型在像素预测上做得越好,它的线性分类探针精度就越高。这不是偶然,而是"无悔原则"的具现:压缩效率越高,通用表征学习就越有效。

有趣的是,自回归模型(如下一像素预测)学到的表征,比掩码模型(如BERT)更容易线性可分。推测是:自回归任务要求模型从全局前文预测下一个像素,这迫使它学习更长程的、更深层的结构。而BERT只需看前后邻域就能填补25%的被掩码像素,这让预测问题变得局部化,反而削弱了对全局模式的捕捉。

最后一个开放的谜团是线性表征为何出现。

压缩理论解释了信息内容的关联,但尚未解释为什么这些信息总是以线性可分的形式组织。也许,真正高效的压缩必然要求内部特征空间的结构化和解耦,这样才能用简单的线性运算高效地重新组合和访问。

这可能是我们向真正通用人工智能逼近的道路上,仍需解开的关键谜团。

时间戳:
09:35 无监督学习概念较为混乱
15:50 关于推理压缩的方法与思考
17:45 泛化到分布匹配相关内容 http://t.cn/AX2C8yuJ