郑昀 26-04-14 21:59
微博认证:云纵世纪(天津)数字科技有限公司CTO

#IT那些事儿# 蒸馏专家是一种有损的“理解式压缩”
根据香农理论,信息中有一部分是“冗余”的(可预测的),另一部分是“惊喜”的(不可预测的)。无损压缩是去除冗余,只保留“惊喜”部分。
按照信息论经典定义,信息量来自于“不确定性的减少”,也就是所谓的“惊喜”(self-information),而冗余对应的是可以预测、可以压缩的结构。
即所谓“冗余”,往往是统计稳定性,而“惊喜”,可能是高熵噪声。

但是现在的知识蒸馏反其道而行之,是去除惊喜,保留冗余。
所以知识蒸馏无法无损还原专家。

发布于 北京