梁赛 25-04-14 23:12
微博认证:AI博主

华为云使用3168根光纤实现连接384个GPU,
当然这意味着绕开了NVLink和Infiniband实现大规模GPU集群的通信。
性能指标见附图。

硅基流动联合华为云基于CloudMatrix 384 超节点昇腾云服务和高性能推理框架 SiliconLLM ,用大规模专家并行最佳实践正式上线 DeepSeek-R1。
该服务在保证单用户 20 TPS 水平前提下,单卡 Decode 吞吐突破 1920 Tokens/s,可比肩 H100 部署性能。同时,经过主流测试集验证及大规模线上盲测,在昇腾算力部署 DeepSeek-R1 的模型精度与 DeepSeek 官方保持一致。

发布于 广东