Follow instruction已经是现在模型的绊脚石了,模型一旦犯错,极难自我纠正,甚至在你指出错误之后,会先去修改,发现修不好又会回来强调之前的错误结论。。。感觉要想做auto research,post training的reward方向得变一变
发布于 美国
Follow instruction已经是现在模型的绊脚石了,模型一旦犯错,极难自我纠正,甚至在你指出错误之后,会先去修改,发现修不好又会回来强调之前的错误结论。。。感觉要想做auto research,post training的reward方向得变一变