#模型时代# Jim Fan: 那些认为RL（强化学习）需要更少算力的根本就不懂RL。因为，sft（监督式微调）是人类数据加机器学习；rl是机器数据加机器学习。让我用一句话阐述就是：机器自身闭环训练带来更多的计算需求。

#模型时代# Jim Fan: 那些认为RL（强化学习）需要更少算力的根本就不懂RL。因为，sft（监督式微调）是人类数据加机器学习；rl是机器数据加机器学习。

让我用一句话阐述就是：机器自身闭环训练带来更多的计算需求。

发布于北京