高飞
25-01-27 23:45 微博认证:至顶科技创始人 AI博主

#模型时代# Jim Fan: 那些认为RL(强化学习)需要更少算力的根本就不懂RL。因为,sft(监督式微调)是人类数据加机器学习;rl是机器数据加机器学习。

让我用一句话阐述就是:机器自身闭环训练带来更多的计算需求。 ​

发布于 北京