NVIDIA H100推理成本领先

Google TPU v6e、AMD MI300X 与 NVIDIA H100/B200的推理成本大比拼：
根据Artificial Analysis最新硬件基准测试，NVIDIA在「每百万输入输出token成本」指标上，较TPU v6e（Trillium）优势约5倍，较MI300X优势约2倍。

以Llama 3.3 70B模型配合vLLM在30输出token/s的参考速度测试，NVIDIA H100的成本仅为1.06美元/百万token，MI300X为2.24美元，TPU v6e则高达5.13美元。此成本指标综合考虑了系统吞吐量与云端租用价格，反映了实际推理的经济效率。

值得注意的是，测试基于当前云端可租用硬件，尚未包含即将上市的Google TPU v7和AMD MI355X。TPU v7在算力、内存与带宽上大幅跃升，但定价尚未公布，未来成本结构仍待观察。

此外，TPU仅限Google Cloud生态，使用时需绑定供应商；而NVIDIA GPU更具中立性，支持多云及本地部署，灵活性更高。硬件性能虽关键，实际成本也深受模型输入输出比例、并发策略及批量大小影响，企业需结合自身业务场景做综合评估。

从长远看，硬件只是推理效率的一环，未来真正的竞争力还将来源于跨平台的模型编译器和自动并行化技术，打破厂商壁垒，实现混合云协同。

当前NVIDIA硬件在推理成本和灵活性上领先，不过Google TPU v7和AMD MI355X有望带来新变数。选择硬件时，除了理论性能，更要关注实际应用环境和整体成本效益。AI推理的成本战，远未到尘埃落定的时刻。

详细数据及多模型对比请见：
artificialanalysis.ai/benchmarks/hardware?model=llama-3-3-instruct-70b

发布于北京