华为384超节点即Atlas 900 A3 SuperPod，以下是关于它的详细介绍：架构与组成硬件组成：由384颗昇腾910C NPU和192颗鲲鹏CPU组成，通过自主研发的高速总线互联架构，将计算、内存和网络资源进行池化和对等互联。网络平面：集成了三种网络平面，分别是UB平面、RDMA平面和VPC平面。UB平面是超级节点内

华为384超节点即Atlas 900 A3 SuperPod，以下是关于它的详细介绍：
架构与组成
硬件组成：由384颗昇腾910C NPU和192颗鲲鹏CPU组成，通过自主研发的高速总线互联架构，将计算、内存和网络资源进行池化和对等互联。
网络平面：集成了三种网络平面，分别是UB平面、RDMA平面和VPC平面。UB平面是超级节点内部的主要超高带宽扩展网络；RDMA平面用于超级节点之间的扩展通信以及与外部RDMA兼容系统的通信；VPC平面通过高速网卡将超级节点连接到更广泛的数据中心网络。
性能优势
超大带宽：节点内互联带宽高达2.8Tbps，远高于英伟达的1.8Tbps，采用高速总线替代以太网络，通信带宽从约100Gbps提升至1.5Tbps，提升15倍。
超低时延：单跳时延从2微秒降至200纳秒，降低10倍，集群协同效率接近单机性能极限。
超强性能：整机算力达到300PFlops，是英伟达GB200 Nvl72系统的1.7-2倍，在LLaMA3、DeepSeek等模型训练性能相比传统集群提升2.5倍以上，在Qwen、DeepSeek等模型上性能提升3倍以上。
核心设计理念
一切可池化：将所有的资源，包括NPU、CPU、内存、网络等都在资源池里，实现资源的逻辑解耦和对等池化。
一切皆对等：资源池里的资源不再是主从式关系，而是对等关系，传统的以CPU为中心的计算范式转变为更高效、更灵活的CPU与NPU等对等架构。
一切可组合：池化的资源可以根据不同的任务需求，像搭积木一样，进行灵活调配组合，以满足不同应用场景的需求。
应用场景
大模型训练：在大规模模型训练中，如千亿稠密模型、多模态/MOE模型等，能够提供强大的算力支持，提升训练效率和性能。
分布式推理：基于分布式Qingtian等技术，达成一切可池化，能够实现“一个专家一张卡”的模式，大幅提升推理任务的效率。
行业应用：在政务、医疗、制造等数百家企业中成功落地应用，为相关企业年收益增加数千万元。
价格与市场定位
价格：据行业公开数据，华为Cloud Matrix 384超节点整机系统的售价约为8000万美元，折合人民币约5.8亿元。
市场定位：主要面向头部科技企业和国家级科研用户，而非普遍商业市场，为这些用户提供独立自主、极限扩展的AI算力底座。

发布于北京