模型自我纠正困难

Follow instruction已经是现在模型的绊脚石了，模型一旦犯错，极难自我纠正，甚至在你指出错误之后，会先去修改，发现修不好又会回来强调之前的错误结论。。。感觉要想做auto research，post training的reward方向得变一变

发布于美国