华为昇腾910C实现SOTA

去年在华为昇腾910C上做大模型的强化学习，到现在也算有点成果了。在Qwen2.5-32B的基础上，刷出了AIME上的SOTA。我们没有跟着业界搞GRPO，而是走了一条自己的路。一方面证明微调大模型不必GRPO，有更简洁的方法；另一方面也证明国产芯片是能训出SOTA大模型的。
http://t.cn/AXqcTR36

发布于广东