蚁工厂
25-01-09 20:25 微博认证:科技博主

微软亚洲研究院发了篇论文,直接把Qwen-7B这样的小模型的数学能力提升到OpenAI o1 的水平了..
论文 arxiv.org/pdf/2501.04519
具体是设计了一个名为 rStar-Math 的系统,系统采用了蒙特卡洛树搜索(MCTS)的方法,结合了一个基于 SLM 的数学策略模型和一个基于 SLM 的过程奖励模型(PPM),来进行深度思考。#AI创造营#

发布于 山东