蚁工厂 25-03-06 08:26
微博认证:科技博主

QwQ-32B发布并开源,跑分和deepseek r1差不多[哆啦A梦吃惊] #阿里发布开源模型QwQ32B#
看上去是个人能在自己机器上玩的模型里性能最强的了。
详细:qwenlm.github.io/zh/blog/qwq-32b/
“我们在冷启动的基础上开展了大规模强化学习。在初始阶段,我们特别针对数学和编程任务进行了 RL 训练。与依赖传统的奖励模型(reward model)不同,我们通过校验生成答案的正确性来为数学问题提供反馈,并通过代码执行服务器评估生成的代码是否成功通过测试用例来提供代码的反馈。随着训练轮次的推进,这两个领域中的性能均表现出持续的提升。在第一阶段的 RL 过后,我们增加了另一个针对通用能力的 RL。此阶段使用通用奖励模型和一些基于规则的验证器进行训练。我们发现,通过少量步骤的通用 RL,可以提升其他通用能力,同时在数学和编程任务上的性能没有显著下降。”
#AI创造营#

发布于 山东