【GPU推理性能曲线：延迟、吞吐与交互性的三角平衡】最新测试显示，Llama 3.3 70B 在多款GPU上表现出明显分层：上图是 Token 吞吐 vs 端到端延迟，下图是 Token 吞吐 vs 交互性。结果揭示了推理系统的核心权衡：H100/H200 （绿色、蓝色）在低延迟场景中最强，适合聊天、智能助理类应用。B200（

【GPU推理性能曲线：延迟、吞吐与交互性的三角平衡】

最新测试显示，Llama 3.3 70B 在多款GPU上表现出明显分层：
上图是 Token 吞吐 vs 端到端延迟，下图是 Token 吞吐 vs 交互性。
结果揭示了推理系统的核心权衡：

H100/H200 （绿色、蓝色）在低延迟场景中最强，适合聊天、智能助理类应用。

B200（尤其 TRT 优化版）在保持中等延迟的同时显著提升吞吐，是通用推理的平衡点。

MI325X/MI355X 在高批量并发下吞吐领先（单卡超 8000 tok/s），但延迟明显上升，更适合离线批处理和大规模服务集群。

整体趋势清晰：延迟 ↓ → 交互性 ↑ ，但吞吐 ↓；追求吞吐 ↑ → 延迟与交互体验显著下降。
这标志着GPU推理进入“分层优化时代”：

H200代表“即时响应”，
MI355X代表“批量高效”，
B200代表“通用平衡”。

推理芯片的竞争，已不再只是算力之争，而是不同场景下的系统优化能力之战。#人工智能[超话]#

发布于美国