CoreWeave 对英伟达 GB300 NVL72 机架进行了性能测试。
GB300 凭借更大的内存容量与互联带宽,仅需采用4 路张量并行(TP4) 即可运行模型,而 H100 系统则需要16 路张量并行(TP16),这一差异大幅降低了数据通信开销。
这种架构优势,带来了性能的巨幅提升:
测试显示,GB300 每块 GPU 的原始吞吐量是 H100 的 6 倍以上。
对用户而言,这意味着生成 token(AI 输出的基本数据单元)的速度更快、效率更高。
国产芯片要追上,还比较遥远。
不过,值得一提的是,在测试推理性能的时候,他们用的大模型是DeepSeek R1,推理性能提升了6.5倍。
发布于 广东
