#模型时代# Jim Fan: 那些认为RL(强化学习)需要更少算力的根本就不懂RL。因为,sft(监督式微调)是人类数据加机器学习;rl是机器数据加机器学习。
让我用一句话阐述就是:机器自身闭环训练带来更多的计算需求。
发布于 北京
#模型时代# Jim Fan: 那些认为RL(强化学习)需要更少算力的根本就不懂RL。因为,sft(监督式微调)是人类数据加机器学习;rl是机器数据加机器学习。
让我用一句话阐述就是:机器自身闭环训练带来更多的计算需求。