阅微草记 25-09-20 08:13

华为近期发布的超节点技术(如 Atlas 950 SuperPoD 和 Atlas 960 SuperPoD)是其突破算力瓶颈的核心战略。它通过系统级架构创新,将数千乃至上万颗昇腾AI芯片整合为一台逻辑上的超级计算机,实现了从“单点性能追赶”到“系统能力引领”的转变。

一、华为超节点的核心创新

华为超节点的核心在于全对等互联架构和自研的 “灵衢”(UnifiedBus) 互联协议。通过光互联技术(如光纤和大量光模块)实现超大规模芯片(如8192卡或15488卡)的纳秒级低时延通信(150~200纳秒)和灵活的资源池化。其设计理念是开放解耦,支持超节点级联构建百万卡集群,旨在通过系统级创新弥补单芯片算力的差距,并满足国产化替代的迫切需求。

二、与英伟达方案的比较分析

以下是华为超节点与英伟达(如NVL72/NVL144方案)的主要对比:

架构设计与互联技术:

华为的优势在于全对等互联和开放生态。其灵衢协议旨在实现灵活的资源调度和无中心瓶颈,并通过开源促进生态共建。在集群规模上,华为Atlas 960支持15,488卡,远超英伟达NVL72的72卡或NVL144的144卡,更适合超大规模AI训练。
英伟达依赖NVLink高速电互联和InfiniBand网络,在单节点或机柜内通过铜缆实现高性能直连,延迟极低,但跨节点扩展时受限于铜缆距离和带宽,整体生态较为封闭。

性能与规模:

华为在总算力和单节点规模上领先。例如,Atlas 960 SuperPoD的FP8算力达30 EFLOPS,其内存容量(如4460TB)和互联带宽(如34PB/s)也显著高于英伟达同类产品。
英伟达的单颗GPU的原始算力仍然领先,在复杂推理和科学计算等场景有优势。

功耗与能效:

华为超节点因其大规模使用光模块,短期内的单节点功耗和散热挑战较大。但其采用全液冷技术,PUE可低至1.1,长期运行能效和成本可控。
英伟达凭借NVLink电互联和更成熟的供应链,其单位算力的能耗表现通常更优。

生态与软件:

华为构建以MindSpore框架和昇腾CANN为核心的生态,支持主流大模型,并提供CUDA代码迁移工具。其生态开放性更强,并积极开源灵衢协议,但整体成熟度和开发者工具丰富性仍在追赶。
英伟达的CUDA生态几乎垄断行业,与TensorFlow、PyTorch等框架深度集成,工具链完善,开发调试更简便,但生态较为封闭。

可靠性与应用场景:

华为强调高可靠性与故障自愈能力,支持40天以上的连续训练,适合超大规模模型训练和国产化替代需求强烈的场景(如政务、金融)。
英伟达在科学计算、高频交易等对单卡性能和低延迟要求极高的场景优势明显。

三、核心供应商受益情况

华为超节点产业链的崛起带动了一批核心供应商,其中部分企业在关键环节具备独享或主导地位:

高速互联领域:
华丰科技:是华为112G高速背板连接器的唯一国产供应商,解决GPU/交换机板卡间高速信号传输问题,市场份额占比高。
中际旭创与光迅科技:是华为超节点光模块的核心供应商。中际旭创供应800G/1.6T光模块,而光迅科技为昇腾384超节点提供大量400G光模块,支撑卡间互联带宽。

液冷散热系统:
高澜股份:提供全液冷散热解决方案,中标中国移动大额液冷订单,是解决超节点高密度散热痛点的关键厂商。
飞龙股份:是华为昇腾服务器液冷泵的独家供应商,市场份额高达70%-80%。

服务器整机与系统集成:
拓维信息与神州数码:作为华为昇腾的核心生态伙伴。拓维信息是昇腾全栈合作伙伴,提供AI训练服务器及行业解决方案;神州数码是昇腾全球总经销商,供应推理服务器。

封装与材料:
兴森科技:是国内唯一能够量产20层以上ABF载板的厂商,专供昇腾高算力芯片封装基板,良率领先,是突破封装技术瓶颈的关键企业。
深南电路:是昇腾910C芯片封装基板的核心供应商,突破了14层FC-BGA技术瓶颈。

总结

华为超节点通过系统级创新(全对等互联、资源池化)在集群算力、内存规模和国产化替代上优势突出,但需攻克高功耗和生态成熟度难题。英伟达则凭借强大的单卡性能和成熟的CUDA生态,在能效和开发生态上仍保有优势。

华为超节点技术的发展也带动了国内一批在高速互联、先进散热、服务器集成及高端封装材料领域的核心供应商,其中多家企业在细分领域具有独享或主导性地位,共同构建了国产AI算力基础设施的生态体系。

发布于 广东