一夜之间,CUDA护城河被AI终结了?
这几天,一位开发者johnnytshi在Reddit上分享了一个令人震惊的操作:
Claude Code仅用了30分钟,便将一段完整的CUDA后端代码,成功移植到AMD的ROCm上。
整个过程,没有手写一行代码。
这架势,简直是要填平这两个生态系统之间的鸿沟。
更关键的是,这次移植完全没有依赖传统的「中间转换工具」,如Hipify翻译层,而是一键通过CLI完成。
就连AMD软件副总Anush E.为之震惊,GPU编程的未来,是AI智能体的。
消息一出,整个科技圈瞬间沸腾,很多人直呼:英伟达CUDA护城河要守不住了.....
这究竟是怎么回事?
Claude手撕CUDA,仅30分钟
Claude Code是在一个智能体框架运行的,这意味着它可以自己「动脑子」。
在执行过程中,他不会机械地转换关键词,而去真正理解代码,即特定核函数的底层逻辑。
开发者johnnytshi介绍,这次移植中,最棘手的数据布局差异问题也被AI解决了,确保了内核核心计算逻辑保持一致。
令人惊叹的是,johnnytshi在短短30分钟内,就把整个CUDA后端移植到了AMD ROCm上,而且中间没用任何翻译层。
另外一个好处当然是,不用费劲去搭像Hipify这种复杂的翻译环境了;直接在命令行(CLI)里就能干活。
如今,全网都被CUDA护城河被攻破呼声淹没了。
毕竟,英伟达霸主地位,很大程度上建立在CUDA这个几乎成为行业标准的编程生态上。
无数AI框架、深度学习库、科学计算工具都深度依赖它。
AMD的ROCm虽然功能强大,却一直面临生态兼容性,以及开发者迁移成本高的痛点。
现在,一个Claude却用极短时间踢碎了门槛,说不定未来更多CUDA代码可能轻松在AMD GPU跑起来了。
实现细节
GitHub中,johnnytshi本人也更新了日志和说明。
为AMD GPU实现了完整的ROCm后端,从而在RDNA 3.5及其他AMD架构上支持基于注意力机制的现代国际象棋网络。
GitHub:http://t.cn/AXGsu4jp
在src/neural/backends/rocm/中添加了完整的ROCm后端
实现了注意力网络架构(多头自注意力、FFN、嵌入层)
使用rocBLAS进行GEMM运算,使用MIOpen进行卷积运算
针对RDNA 3.5上的FP16性能优化了NCHW布局
提供三种后端变体:rocm (FP32)、rocm-fp16 (FP16)、rocm-auto (自动检测)
MIOpen是必选依赖(类似于CUDA的cuDNN)
通过rocm_agent_enumerator自动检测AMD GPU架构
编译选项:-Drocm=true -Damd_gfx=gfx1151(或使用自动检测)
性能说明:
FP16性能:在Strix Halo (Radeon 8060S, gfx1151) 上 >2000 nps
自动Batch Size调优(RDNA 3.5上min_batch=64)
测试过rocWMMA,但rocBLAS性能更好
验证情况(Strix Halo - Radeon 8060S, gfx1151):
测试模型:768x15x24h-t82-swa-7464000.pb.gz 和 maia-1900.pb.gz
后端:rocm-fp16功能正常,能生成正确的走法
环境:ROCm 7.2.53150, MIOpen 3.5.1
注:仅在RDNA 3.5上进行了测试;其他AMD架构暂未验证
GPU未来,是AI智能体主场
当然,这次演示也有局限性。
对于简单或中等复杂度的内核,Claude Code表现得非常出色。更重要的是,写核函数的核心就在于搞定「深度硬件」优化。
不过,一部分觉得Claude Code在这方面还是差点火候——
如果遇到那些针对特定硬件缓存层级,内存访问模式做过极致优化的复杂内核,AI目前还难以完全取代人类专家。
即便如此,这一事件释放出的信号已经足够强烈。
过去几个月,ZLUDA项目、还有微软内部的尝试,都想要打破CUDA的垄断。
但它们大多依赖规则映射或中间层,自动化程度和智能水平有限。
Claude Code代表的智能体式编程,直接跳过了这些环节,用「理解+自主决策」的方式填平生态鸿沟。
正如AMD软件副总所言,GPU编程的未来,是AI智能体主场。
