华为云使用3168根光纤实现连接384个GPU,
当然这意味着绕开了NVLink和Infiniband实现大规模GPU集群的通信。
性能指标见附图。
硅基流动联合华为云基于CloudMatrix 384 超节点昇腾云服务和高性能推理框架 SiliconLLM ,用大规模专家并行最佳实践正式上线 DeepSeek-R1。
该服务在保证单用户 20 TPS 水平前提下,单卡 Decode 吞吐突破 1920 Tokens/s,可比肩 H100 部署性能。同时,经过主流测试集验证及大规模线上盲测,在昇腾算力部署 DeepSeek-R1 的模型精度与 DeepSeek 官方保持一致。
发布于 广东
