华为云使用3168根光纤实现连接384个GPU，当然这意味着绕开了NVLink和Infiniband实现大规模GPU集群的通信。性能指标见附图。硅基流动联合华为云基于CloudMatrix 384 超节点昇腾云服务和高性能推理框架 SiliconLLM ，用大规模专家并行最佳实践正式上线 DeepSeek-R1。该服务在保证单用户 20 TPS 水平

华为云使用3168根光纤实现连接384个GPU，
当然这意味着绕开了NVLink和Infiniband实现大规模GPU集群的通信。
性能指标见附图。

硅基流动联合华为云基于CloudMatrix 384 超节点昇腾云服务和高性能推理框架 SiliconLLM ，用大规模专家并行最佳实践正式上线 DeepSeek-R1。
该服务在保证单用户 20 TPS 水平前提下，单卡 Decode 吞吐突破 1920 Tokens/s，可比肩 H100 部署性能。同时，经过主流测试集验证及大规模线上盲测，在昇腾算力部署 DeepSeek-R1 的模型精度与 DeepSeek 官方保持一致。

发布于广东