又菜又爱玩的老司机
26-06-24 12:34 微博认证:汽车博主

帮中国夺回全球第一的“灵晟”超算,搭载47000颗华为鲲鹏CPU,在理论算力稍弱于El Captain的情况下,依靠实测HPL算力拿下的世界第一。

灵晟超算实测HPL效率高达80.3%,远超排名第二的El Captain的64%,实际效率上的绝对优势源于华为软硬件全栈的协同创新,尤其是在架构设计、互联网络、内存带宽和软件生态等方面的深度优化:

一、首创“全CPU”架构,消除异构通信瓶颈
“灵晟”走了一条与当前主流超算(通常依赖GPU加速)完全不同的技术路线。

●首创Online Acceleration架构:打破了传统CPU-GPU的异构架构壁垒,消除了CPU与GPU间频繁的数据搬运和通信开销,让计算单元能更高效地协同工作:

●片内集成AI加速:自研的LX2处理器在片内集成了AI矩阵加速单元。这使得HPL这类线性代数计算任务,能直接在CPU内高效完成,避免了异构计算中常见的性能损耗。

二、“灵启”高速互联,支撑超大规模并行
超算的性能发挥极度依赖节点间的通信效率。“灵晟”搭载的自主“灵启”(LingQi)高速互联网络是另一大功臣。

●超大规模组网能力:网络可支持200万个端口、10万个节点的超大规模组网。

●高带宽与优拓扑:采用双平面多轨胖树拓扑,为每个节点提供了高达1.6Tb/s的通信带宽。强大的互联性能确保了近1400万个CPU核心在运行HPL时能高效协同,从而实现了高达84.4% 的平均并行扩展效率。

三、自研LX2处理器与HBM,破解“内存墙”难题
HPL这类计算密集型的基准测试,对内存带宽极为敏感。

●集成国产HBM:“灵晟”的LX2处理器集成了首颗国产HBM高带宽内存。

●带宽质的飞跃:这使得其内存带宽相比传统CPU提升了10倍,为CPU核心提供了充足的数据“燃料”,避免了因等待数据而造成的算力浪费,让理论峰值更易被触及。

四、自研全栈软件,充分释放硬件潜能
“灵晟”作为国产全栈融合基础设施,配备了自研的全栈软件。

●深度软硬协同:自研操作系统(麒麟OS)和软件栈可以针对硬件架构进行深度定制和优化。

●充分释放性能:“软硬一体”的模式将底层硬件的每一分潜力,以“可用、可编程、可优化”的方式释放给应用程序,从而在HPL测试中跑出远高于对手的效率。

#华为[超话]##灵晟问鼎全球超算top500##中国灵晟刷新世界算力新高度##灵晟超级计算机登鼎全球超算榜单#

发布于 浙江