程贵锋gui 25-09-21 23:45
微博认证:中国电信广州研究院 终端研发中心 副总经理 头条文章作者

华为轮值董事长徐直军:芯片不是华为AI算力的全部,“超节点+集群”算力解决方案是华为在AI领域的核心战略,灵衢互联协议是开创新计算架构的新范式。只有依靠超节点和集群,才能规避中国的芯片制造工艺受限,才能够为中国的AI算力提供源源不断的算力支持和供给。
一、超节点+集群
Atlas 950/960超节点:分别支持8192张、15488张昇腾卡,FP8算力达8/30 EFLOPs,互联带宽16.3/34 PB/s,内存容量1152/4460 TB,在卡规模、总算力、内存容量、互联带宽等关键指标上全面领先,均大幅超越英伟达同期产品(如NVL144卡规模为其56.8倍,总算力6.7倍)。
超节点集群:Atlas 950 SuperCluster(2026年四季度上市)算力规模超50万卡,FP8总算力524 EFLOPs;Atlas 960 SuperCluster(2027年四季度上市)规模达百万卡,FP8总算力2 ZFLOPS,支持万亿参数大模型训练。
“除了单颗芯片比它(英伟达)的算力小一点,功耗大一点,其他都是优势。”徐直军如此评价,“因为AI就是并行计算,所以我们的解决方案就是超节点,超节点做成一台机器,你用5颗,我可以用10颗,那我们用384/8192/15488颗芯片,这还不是最大的。”
他进一步解释道,(华为)不同于大模型公司,也不同于应用公司,作为ICT基础设施和智能终端提供商,华为充分发挥自身优势,扎扎实实把基础设施做好,通过基础设施挣钱,做超节点、做集群,公司内部已达成共识,通过昇腾硬件变现,取得商业成功。
“什么叫超节点?尽管物理上是多机柜、多个卡(8192个卡或者是15488个卡)联接成一个超节点,但是它们能够像一台计算机一样工作、学习、思考、推理。集群是把多个超节点以网络联结在一起,就像云服务一样,相当于用多个服务器一样,即把多台服务器连接在一起,再以软件层将它调度。"
二、灵衢超节点互联技术
灵衢互联协议:突破跨机柜高速互联难题,带宽达16 PB/s(超全球互联网峰值10倍),时延低于1微秒,并开放2.0技术规范共建生态。
大规模超节点推动智算和通算能力达到新高度,也对互联技术提出重大挑战。华为在定义和设计Atlas 950、Atlas 960两个超节点技术规格时,遇到两方面难题。一是如何实现长距离且高可靠互联,大规模超节点机柜多,柜间联接距离长,当前电互联和光互联技术无法满足需求,电互联高速时联接距离短,光互联无法满足可靠性需求。二是如何实现大带宽且低时延互联,当前跨柜卡间互联带宽低,与超节点需求差距达5倍,跨柜卡间时延大,与Atlas 950/960设计需求仍有24%差距,且逼近物理极限,提升难度大。
为解决长距离且高可靠问题,华为采用了更激进的光通信策略,光模块带来了高带宽和高速率的优势,损耗低,适合长距离传输,因而可联接更多芯片,部署灵活。在互联协议各层引入高可靠机制,在光路引入百纳秒级故障检测和保护切换,重新定义和设计光器件、光模块和互联芯片,使光互联可靠性提升100倍,互联距离超200米,实现电的可靠和光的距离。为解决大带宽且低时延问题,突破多端口聚合与高密封装技术,以及平等架构和统一协议,实现TB级超大带宽,2.1微秒超低时延。
为满足Atlas 950/960超节点互联技术要求,实现万卡超节点像一台计算机工作,华为开创超节点架构和新型互联协议,支撑万卡级超节点架构。万卡级超节点架构具备总线级互联、平等协同、全量池化、协议归一、大规模组网、高可用性六大特征。华为将这一面向超节点的新型互联协议命名为“灵衢”,英文名称UB(UnifiedBus)。
PCIE、InfiniBand、RoCE等各种协议并行发展,英伟达的NVlink等协议最大化发挥了英伟达GPU的算力,灵衢不止是一个替代,是AI算力互联标准的重塑,通过灵衢互联协议,能够把数万规模的计算卡,联接成一个超节点。相较于NVlink协议的封闭,华为宣布将开放灵衢2.0技术规范。
在华为之前,没有一家厂商敢用光模块来实现超节点,光模块故障率高且成本高,方案能不能做成都是未知数,华为凭借着多年积累的通信能力,在光芯片和连接技术、故障恢复等方面形成了一套独一无二的方案,使得超节点成为可能。
http://t.cn/AXhnRuon

发布于 广东