Devin 训练了一个用于编写 CUDA 内核的模型 Kevin-32B ,Kevin 是 K(ernel D)evin 的简写,在 KernelBench 数据集上使用 GRPO(基于 QwQ - 32B)实现了多轮强化学习(RL)。
链接:cognition.ai/blog/kevin-32b
发布于 北京
Devin 训练了一个用于编写 CUDA 内核的模型 Kevin-32B ,Kevin 是 K(ernel D)evin 的简写,在 KernelBench 数据集上使用 GRPO(基于 QwQ - 32B)实现了多轮强化学习(RL)。
链接:cognition.ai/blog/kevin-32b