机器之心Pro 26-03-16 14:14
微博认证:机器之心官方微博

传统的观点认为,模型必须通过强化学习(如 PPO、GRPO 或 RLHF)和进化策略(ES)等算法,在反复的迭代和梯度优化过程中调整权重,才能在特定任务上达到理想的性能。

MIT CSAIL 的研究人员 Yulu Gan 和 Phillip Isola 在他们最新发布的论文中对这一传统认知发起了挑战。他们提出了一种名为 RandOpt 的新方法,通过简单的随机扰动和集成来突破传统后训练的限制。 http://t.cn/AXfPWIsq