刘群MT-to-Death 24-11-18 20:28
微博认证:刘群,中国科学院计算技术研究所研究员、机器翻译领域专家 微博新知博主

转发:http://t.cn/A6ng1GAW
这一段很有意思:【Karpathy 还提到:「Yann LeCun 当时就不太看好强化学习,他一遍又一遍地谈论『蛋糕』,而强化学习(RL)只是蛋糕顶部最后一颗樱桃,表征学习是蛋糕主体,监督学习是锦上添花。至少在今天看来,他在概念上是完全正确的(预训练 = 蛋糕主体,监督微调(SFT)= 糖衣,RLHF = 樱桃,即基本的 ChatGPT 训练 pipeline)。这很有趣,因为今天他仍然不太看好 LLM。」】
现在PT(Pre-training), SFT, RL的作用都已经看得很清楚了,但现在PT/SFT走到头了吗?是需要继续挖掘PT/SFT的潜力,还是应该把注意力转向RL了?答案似乎依然不明朗。

发布于 中国香港