MIT挑战传统模型训练方法

传统的观点认为，模型必须通过强化学习（如 PPO、GRPO 或 RLHF）和进化策略（ES）等算法，在反复的迭代和梯度优化过程中调整权重，才能在特定任务上达到理想的性能。

MIT CSAIL 的研究人员 Yulu Gan 和 Phillip Isola 在他们最新发布的论文中对这一传统认知发起了挑战。他们提出了一种名为 RandOpt 的新方法，通过简单的随机扰动和集成来突破传统后训练的限制。 http://t.cn/AXfPWIsq