去年在华为昇腾910C上做大模型的强化学习,到现在也算有点成果了。在Qwen2.5-32B的基础上,刷出了AIME上的SOTA。我们没有跟着业界搞GRPO,而是走了一条自己的路。一方面证明微调大模型不必GRPO,有更简洁的方法;另一方面也证明国产芯片是能训出SOTA大模型的。
http://t.cn/AXqcTR36
发布于 广东
去年在华为昇腾910C上做大模型的强化学习,到现在也算有点成果了。在Qwen2.5-32B的基础上,刷出了AIME上的SOTA。我们没有跟着业界搞GRPO,而是走了一条自己的路。一方面证明微调大模型不必GRPO,有更简洁的方法;另一方面也证明国产芯片是能训出SOTA大模型的。
http://t.cn/AXqcTR36