姬永锋 26-03-08 09:48
微博认证:财经博主

🚨 突发:字节跳动刚刚发布了一篇论文,应该让每个GPU基础设施团队和英伟达投资者都大吃一惊。

一个AI智能体现在编写的CUDA内核比torch.compile(每个机器学习工程师依赖的黄金标准编译器)还要快。

不是接近。总体几何平均快2.11倍。

Claude Opus 4.5达到1.46倍。Gemini 3 Pro达到1.42倍。
字节跳动的CUDA智能体在最困难的基准测试上比两者都高出约40%。

真正疯狂的部分是:

同样的基础模型最初只有0.69倍(比编译器慢)。

然后他们在真实的GPU性能分析数据上运行纯强化学习——没有人工标注的示例,只有模型编写内核、运行它们、测量实际耗时并学习。几周后,它完成了人类编译器团队花费数年才完善的工作。

没人愿意大声说出的影响:

目前证明天文数字般的GPU成本和英伟达利润率的巨大性能空间……现在可以通过软件和强化学习来缩小。

一个击败最佳人工优化编译器的AI,彻底改写了训练和推理的整个经济学。

字节跳动+清华已经开源了训练数据集和智能体框架(权重目前仍在内部)。

这篇论文值得读两遍。

发布于 江苏