字节跳动发布高性能CUDA论文

🚨 突发：字节跳动刚刚发布了一篇论文，应该让每个GPU基础设施团队和英伟达投资者都大吃一惊。

一个AI智能体现在编写的CUDA内核比torch.compile（每个机器学习工程师依赖的黄金标准编译器）还要快。

不是接近。总体几何平均快2.11倍。

Claude Opus 4.5达到1.46倍。Gemini 3 Pro达到1.42倍。
字节跳动的CUDA智能体在最困难的基准测试上比两者都高出约40%。

真正疯狂的部分是：

同样的基础模型最初只有0.69倍（比编译器慢）。

然后他们在真实的GPU性能分析数据上运行纯强化学习——没有人工标注的示例，只有模型编写内核、运行它们、测量实际耗时并学习。几周后，它完成了人类编译器团队花费数年才完善的工作。

没人愿意大声说出的影响：

目前证明天文数字般的GPU成本和英伟达利润率的巨大性能空间……现在可以通过软件和强化学习来缩小。

一个击败最佳人工优化编译器的AI，彻底改写了训练和推理的整个经济学。

字节跳动+清华已经开源了训练数据集和智能体框架（权重目前仍在内部）。

这篇论文值得读两遍。

发布于江苏