微软亚洲研究院发了篇论文，直接把Qwen-7B这样的小模型的数学能力提升到OpenAI o1 的水平了..论文 arxiv.org/pdf/2501.04519具体是设计了一个名为 rStar-Math 的系统，系统采用了蒙特卡洛树搜索（MCTS）的方法，结合了一个基于 SLM 的数学策略模型和一个基于 SLM 的过程奖励模型（PPM），来进行深

微软亚洲研究院发了篇论文，直接把Qwen-7B这样的小模型的数学能力提升到OpenAI o1 的水平了..
论文 arxiv.org/pdf/2501.04519
具体是设计了一个名为 rStar-Math 的系统，系统采用了蒙特卡洛树搜索（MCTS）的方法，结合了一个基于 SLM 的数学策略模型和一个基于 SLM 的过程奖励模型（PPM），来进行深度思考。#AI创造营#