【当基于递归生成的数据进行训练时,AI模型会坍缩】
- 文章定义“模型坍缩”是指一种机器学习模型训练过程中的退化现象。当后继模型被训练使用前代模型生成的数据时,这些数据会污染后继模型的训练数据集。被污染数据训练出来的模型对真实世界的感知会出现偏差。
- 模型坍缩会导致三种错误逐步累积,使模型偏离原始数据分布:
(1) 统计近似误差:由有限样本数量导致的主要误差类型。
(2) 函数表达错误:由受限的函数逼近表达能力导致的次要误差类型。
(3) 函数逼近误差:主要由学习过程的局限性引起的次要误差类型。
- 通过理论分析和实验表明,模型坍缩是递归训练的生成模型中的一种普遍现象。信息首先从分布尾开始丢失,随后学习的行为收敛到变异极小的点估计。即使在近似理想的长期学习条件下,这种过程也是不可避免的。
- 在语言模型实验中,结果表明:
(1) 通过生成的数据训练是可能的,模型可以成功地学习某些底层任务。
(2)但是随着代际迭代,模型开始产生原模型极低可能性的序列,即错误。会产生重复短语。
(3)需要保持对原始数据源的访问,获得大量非AI生成的数据,才能维持长期学习。
- 讨论了模型坍缩对LLM学习动态的影响,以及区分人类生成数据和AI生成数据的必要性。数据来源的可追溯性和多个方之间的协调配合也很重要。
- 提出了“先发优势”,早期训练的模型可以避免数据集分布逐步偏移带来的问题。保持对原始数据源的访问尤其重要。
《AI models collapse when trained on recursively generated data | Nature》 http://t.cn/A68Mq61O #机器学习##人工智能##AI模型##递归数据生成##语言模型#
