华为384超节点即Atlas 900 A3 SuperPod,以下是关于它的详细介绍:
架构与组成
硬件组成:由384颗昇腾910C NPU和192颗鲲鹏CPU组成,通过自主研发的高速总线互联架构,将计算、内存和网络资源进行池化和对等互联。
网络平面:集成了三种网络平面,分别是UB平面、RDMA平面和VPC平面。UB平面是超级节点内部的主要超高带宽扩展网络;RDMA平面用于超级节点之间的扩展通信以及与外部RDMA兼容系统的通信;VPC平面通过高速网卡将超级节点连接到更广泛的数据中心网络。
性能优势
超大带宽:节点内互联带宽高达2.8Tbps,远高于英伟达的1.8Tbps,采用高速总线替代以太网络,通信带宽从约100Gbps提升至1.5Tbps,提升15倍。
超低时延:单跳时延从2微秒降至200纳秒,降低10倍,集群协同效率接近单机性能极限。
超强性能:整机算力达到300PFlops,是英伟达GB200 Nvl72系统的1.7-2倍,在LLaMA3、DeepSeek等模型训练性能相比传统集群提升2.5倍以上,在Qwen、DeepSeek等模型上性能提升3倍以上。
核心设计理念
一切可池化:将所有的资源,包括NPU、CPU、内存、网络等都在资源池里,实现资源的逻辑解耦和对等池化。
一切皆对等:资源池里的资源不再是主从式关系,而是对等关系,传统的以CPU为中心的计算范式转变为更高效、更灵活的CPU与NPU等对等架构。
一切可组合:池化的资源可以根据不同的任务需求,像搭积木一样,进行灵活调配组合,以满足不同应用场景的需求。
应用场景
大模型训练:在大规模模型训练中,如千亿稠密模型、多模态/MOE模型等,能够提供强大的算力支持,提升训练效率和性能。
分布式推理:基于分布式Qingtian等技术,达成一切可池化,能够实现“一个专家一张卡”的模式,大幅提升推理任务的效率。
行业应用:在政务、医疗、制造等数百家企业中成功落地应用,为相关企业年收益增加数千万元。
价格与市场定位
价格:据行业公开数据,华为Cloud Matrix 384超节点整机系统的售价约为8000万美元,折合人民币约5.8亿元。
市场定位:主要面向头部科技企业和国家级科研用户,而非普遍商业市场,为这些用户提供独立自主、极限扩展的AI算力底座。
发布于 北京
