转发：http://t.cn/A6ng1GAW 这一段很有意思：【Karpathy 还提到：「Yann LeCun 当时就不太看好强化学习，他一遍又一遍地谈论『蛋糕』，而强化学习（RL）只是蛋糕顶部最后一颗樱桃，表征学习是蛋糕主体，监督学习是锦上添花。至少在今天看来，他在概念上是完全正确的（预训练 = 蛋糕主体，监督微调（S

转发：http://t.cn/A6ng1GAW
这一段很有意思：【Karpathy 还提到：「Yann LeCun 当时就不太看好强化学习，他一遍又一遍地谈论『蛋糕』，而强化学习（RL）只是蛋糕顶部最后一颗樱桃，表征学习是蛋糕主体，监督学习是锦上添花。至少在今天看来，他在概念上是完全正确的（预训练 = 蛋糕主体，监督微调（SFT）= 糖衣，RLHF = 樱桃，即基本的 ChatGPT 训练 pipeline）。这很有趣，因为今天他仍然不太看好 LLM。」】
现在PT(Pre-training), SFT, RL的作用都已经看得很清楚了，但现在PT/SFT走到头了吗？是需要继续挖掘PT/SFT的潜力，还是应该把注意力转向RL了？答案似乎依然不明朗。

发布于中国香港