yaolubrain 26-01-26 21:23

去年在华为昇腾910C上做大模型的强化学习,到现在也算有点成果了。在Qwen2.5-32B的基础上,刷出了AIME上的SOTA。我们没有跟着业界搞GRPO,而是走了一条自己的路。一方面证明微调大模型不必GRPO,有更简洁的方法;另一方面也证明国产芯片是能训出SOTA大模型的。
​http://t.cn/AXqcTR36 ​

发布于 广东