Claude Code移植CUDA至ROCm

一夜之间，CUDA护城河被AI终结了？

这几天，一位开发者johnnytshi在Reddit上分享了一个令人震惊的操作：

Claude Code仅用了30分钟，便将一段完整的CUDA后端代码，成功移植到AMD的ROCm上。

整个过程，没有手写一行代码。

这架势，简直是要填平这两个生态系统之间的鸿沟。

更关键的是，这次移植完全没有依赖传统的「中间转换工具」，如Hipify翻译层，而是一键通过CLI完成。

就连AMD软件副总Anush E.为之震惊，GPU编程的未来，是AI智能体的。

消息一出，整个科技圈瞬间沸腾，很多人直呼：英伟达CUDA护城河要守不住了.....

这究竟是怎么回事？

Claude手撕CUDA，仅30分钟

Claude Code是在一个智能体框架运行的，这意味着它可以自己「动脑子」。

在执行过程中，他不会机械地转换关键词，而去真正理解代码，即特定核函数的底层逻辑。

开发者johnnytshi介绍，这次移植中，最棘手的数据布局差异问题也被AI解决了，确保了内核核心计算逻辑保持一致。

令人惊叹的是，johnnytshi在短短30分钟内，就把整个CUDA后端移植到了AMD ROCm上，而且中间没用任何翻译层。

另外一个好处当然是，不用费劲去搭像Hipify这种复杂的翻译环境了；直接在命令行（CLI）里就能干活。

如今，全网都被CUDA护城河被攻破呼声淹没了。

毕竟，英伟达霸主地位，很大程度上建立在CUDA这个几乎成为行业标准的编程生态上。

无数AI框架、深度学习库、科学计算工具都深度依赖它。

AMD的ROCm虽然功能强大，却一直面临生态兼容性，以及开发者迁移成本高的痛点。

现在，一个Claude却用极短时间踢碎了门槛，说不定未来更多CUDA代码可能轻松在AMD GPU跑起来了。

实现细节

GitHub中，johnnytshi本人也更新了日志和说明。

为AMD GPU实现了完整的ROCm后端，从而在RDNA 3.5及其他AMD架构上支持基于注意力机制的现代国际象棋网络。

GitHub：http://t.cn/AXGsu4jp

在src/neural/backends/rocm/中添加了完整的ROCm后端
实现了注意力网络架构（多头自注意力、FFN、嵌入层）
使用rocBLAS进行GEMM运算，使用MIOpen进行卷积运算
针对RDNA 3.5上的FP16性能优化了NCHW布局
提供三种后端变体：rocm (FP32)、rocm-fp16 (FP16)、rocm-auto (自动检测)
MIOpen是必选依赖（类似于CUDA的cuDNN）
通过rocm_agent_enumerator自动检测AMD GPU架构
编译选项：-Drocm=true -Damd_gfx=gfx1151（或使用自动检测）

性能说明：

FP16性能：在Strix Halo (Radeon 8060S, gfx1151) 上 >2000 nps
自动Batch Size调优（RDNA 3.5上min_batch=64）
测试过rocWMMA，但rocBLAS性能更好

验证情况（Strix Halo - Radeon 8060S, gfx1151）：

测试模型：768x15x24h-t82-swa-7464000.pb.gz 和 maia-1900.pb.gz
后端：rocm-fp16功能正常，能生成正确的走法
环境：ROCm 7.2.53150, MIOpen 3.5.1
注：仅在RDNA 3.5上进行了测试；其他AMD架构暂未验证

GPU未来，是AI智能体主场

当然，这次演示也有局限性。

对于简单或中等复杂度的内核，Claude Code表现得非常出色。更重要的是，写核函数的核心就在于搞定「深度硬件」优化。

不过，一部分觉得Claude Code在这方面还是差点火候——

如果遇到那些针对特定硬件缓存层级，内存访问模式做过极致优化的复杂内核，AI目前还难以完全取代人类专家。

即便如此，这一事件释放出的信号已经足够强烈。

过去几个月，ZLUDA项目、还有微软内部的尝试，都想要打破CUDA的垄断。

但它们大多依赖规则映射或中间层，自动化程度和智能水平有限。

Claude Code代表的智能体式编程，直接跳过了这些环节，用「理解+自主决策」的方式填平生态鸿沟。

正如AMD软件副总所言，GPU编程的未来，是AI智能体主场。