吴猪猪猪猪猪猪吴
26-06-03 02:29



老黄点名了下一个将达到万亿美金市值的公司,相比这个Murphy(MRVL的CEO)今天演讲以及他与来黄的对话更值得一看。Murphy用近一个小时的时间,系统阐述Marvell如何押注数据基础设施、为什么光互联将成为AI时代的关键技术,以及这场从铜缆到光纤的转型将如何重塑整个数据中心架构,看完murphy的演讲,相信能对光互联的技术演化有更深的理解和认识,梳理下Murphy的演讲要点:
1、十年豪赌:如何成为数据中心之王
Murphy演讲从一段自我剖白开始。2014年加入Marvell 时,这家公司60%的收入来自消费电子市场,数据中心业务占比不到10%。也正是在那个时刻,他做出了一个大胆的判断——半导体行业的下一个增长周期,将由 Google、Amazon、Microsoft、Meta 等平台公司驱动,核心需求是“以大规模移动、存储、处理和保护数据的半导体技术”。

这个判断在当时并不被广泛认可。“数据基础设施”甚至还不是一个被行业承认的市场类别,只是 Marvell 用来描述未来愿景的内部术语。但 Murphy 和他的团队展现了惊人的执行力:通过一系列精准的并购和剥离,Marvell 在十年间投入了约285亿美元(225亿美元收购+60亿美元内部研发-40亿美元资产剥离),系统性地构建了从毫米到千公里、覆盖 AI 基础设施全栈的连接技术平台。

这些并购包括2018年收购 Cavium 强化计算和网络能力;2019年收购 Avera 建立定制芯片业务、收购 Aquantia 增强连接产品组合;
2021年以100亿美元收购 Inphi 获得世界级数据中心连接技术;
以及最近12个月内收购 Celestica AI 的光子结构技术和 Xcon 的 scale-up 交换能力。

结果是惊人的:Marvell 从2014年的25亿美元营收增长到2026财年预计的110亿美元,最近几年增速更是达到每年40%。根据上周财报电话会议后的华尔街共识预期,2027财年 Marvell 营收将达到164亿美元。更关键的是,数据中心业务占比已从不到10%飙升至上季度的75%以上。

2、连接性:AI 基础设施的真正瓶颈
Murphy 在演讲中抛出了一个核心问题:什么定义了 AI 基础设施的性能?大多数人会想到处理器、GPU、制程节点(3nm、2nm 甚至未来的1.4nm、1.6nm),或者高带宽内存。这些当然重要,但 Murphy 指出,这些都不是系统的决定性特征。

“因为一个处理器,无论它有多快、连接了多少内存,对于今天的 AI 工作负载来说根本不够。你需要数万个、最终是数百万个处理器作为一个单一的大规模计算引擎协同工作。这就是为什么这种规模的计算从根本上是一个连接性挑战。”Murphy 说道,“而且越来越多地,正是连接性的架构和特性定义了系统的性能。”

这个判断得到了英伟达 CEO 黄仁勋的呼应。在 Murphy 邀请下登台的黄仁勋强调,AI Agent 的计算模式是“分解和分布式的”(disaggregated and distributed)——当你把一个计算问题分解成许多部分,并分布到整个数据中心时,连接性就成为必需品。“我们分解和分布式计算,使其运行在这些巨大的集群上,这样我们就能聚合总计算量、总内存和总带宽。而使这一切成为可能的,就是连接性。”黄仁勋说,“这就是为什么 Matt 做得这么好,为什么 Marvell 如此关键。”

Murphy 进一步解释了连接性瓶颈的演变逻辑:过去几年,AI 基础设施先后解决了计算瓶颈(英伟达引领的 GPU 革命)和内存瓶颈(HBM 高带宽内存的规模化),现在瓶颈正在再次转移。“现在是连接性将定义基础设施的极限,就像计算和内存一样。”他引用了与最大客户的对话:“世界上最大的超大规模云服务商现在正在重新构想他们的整个网络架构。他们认识到,扩展 AI 基础设施现在首先是一个连接性挑战。”

随着推理模型、专家混合架构(mixture of experts)、生成式 AI 的持续演进,更多数据必须在基础设施中移动,需要更高的带宽和更低的延迟。当工作负载不再适合单个数据中心时,就需要建设更大的数据中心或整个数据中心园区,以及它们之间的所有高速连接。“因此,连接性成为扩展计算的关键推动力,我们的客户越来越认识到光学是前进的方向。”Murphy 说。

3、从千公里到毫米:Marvell 的全栈连接布局
Murphy 用一张图展示了 AI 基础设施跨越的所有距离——从数据中心之间的数百甚至上千公里,到封装内部的毫米级距离。每一个距离都需要不同的解决方案、不同的技术、不同的工程团队,甚至不同的供应链。“这些不是同一问题的变体,而是根本不同的工程挑战。”

1)跨数据中心连接(数百至上千公里)
这需要非常专门的相干调制(coherent modulation)技术,核心是专用的数字信号处理器(DSP)。Marvell 是全球少数几家能够构建这种相干 DSP 的公司之一,已经领导了从100Gbps 到400Gbps 再到800Gbps 的代际演进。Murphy 在现场展示了一个相干光模块实物——这是一个极其复杂的工程产品,包含了 Marvell 最复杂的先进制程 CMOS DSP 芯片、第四代硅光子技术(已量产十年),以及用硅锗工艺设计的自研宽带模拟组件。“今年晚些时候,我们将采样世界上首个1Tbit、2nm 制程的相干光学解决方案。”Murphy 宣布。

2)数据中心内部连接(数百米)
数据中心内部包含成排的计算服务器,每个机架顶部通常有一个交换机,机架级交换机连接到脊柱和核心交换机,通过光纤电缆形成整个数据中心的网络结构。这部分使用的是更节能的 PAM4调制技术。Marvell 构建了业界领先的 PAM4 DSP 解决方案,以及高速模拟组件(包括跨阻放大器 TIA 和激光驱动器),并引领了从25Gbps、100Gbps、200Gbps、400Gbps 到800Gbps 的每一次重大转型。去年,Marvell 开始量产业界领先的1.6Tbps PAM4解决方案。在以太网交换方面,Marvell 拥有从51.2Tbps 到51.2Tbps 的完整产品组合,并在 ComputeX 当天宣布了专为 AI 数据中心设计的新一代102.4Tbps 以太网交换机,具有业界最低功耗。

3、机架内部连接
目标是以全互联(any-to-any)配置连接尽可能多的处理器——每个处理器都能直接与其他每个处理器通信。英伟达的 NVLink 72(因机架内连接72个 GPU 而得名)首次将这种架构推向市场。这需要完全不同的交换类别,以及通过机架内铜背板驱动超高速信号的能力。“今天,这不是光学的领域,这是铜的领域。”Murphy 说。核心差异化因素是电气 SerDes 技术而非光学。Marvell 拥有目前领先的200Gbps 电气 SerDes,并已在过去几年中演示了面向未来的400Gbps 技术,这些 SerDes 被集成到客户的定制芯片、XPU 以及 Marvell 自己的 scale-up 交换机中。

4)封装内部连接(毫米级)
当今最先进的芯片内部有多个 chiplet,2.5D 或3D 封装本质上是一种连接技术,允许这些 chiplet 在封装内非常靠近地放置,并通过超高速短距离 die-to-die 接口通信。Marvell 拥有领先的 die-to-die SerDes 和先进封装能力,使客户能够构建业界最复杂、最独特的多 die 芯片。

Murphy 强调,拥有所有这些能力“在一个屋檐下”是不寻常的、独特的。“当我们去竞争时,通常在每个类别中我们面对的是不同的竞争对手。但这就是我们的独特之处——我们是一站式商店,是整个连接堆栈的领导者。”

4、铜墙将移:光互联的物理必然性
Murphy 演讲的核心洞察集中在一个概念上:铜墙(Copper Wall)。他用一张图清晰地展示了当前 AI 基础设施中的连接分界线——左侧是光学连接(使用光纤电缆传输光信号,两端有复杂的电子设备驱动和调制激光),右侧是电气连接(使用铜缆、PCB 上印刷的铜走线,或封装内部的微观铜布线)。中间是“铜墙”,定义了信号在必须转向光学连接之前可以通过铜传输的最长距离。

“这是一个重要的区别,因为铜很简单、成本低,正如 Jensen 所说,你想尽可能长时间地使用它,这非常实用。但光学更复杂,需要激光器、光子学、复杂的电子设备。”Murphy 说,“而铜墙,我今天要告诉你们的是,它即将移动。它将再次移动,并将接管机架本身。这正在为光学行业创造需求的爆炸式增长。”

这不是偏好问题,而是物理定律。信号通过铜缆传输的距离与带宽成反比——每次带宽翻倍,距离就必须减半。Murphy 给出了具体数据:当今世界上最高速的生产系统运行在每通道200Gbps。在这个带宽下,电缆长度限制在大约1.5米。相比之下,100Gbps 系统可以使用约3米的电缆。而机架的高度约为2米,考虑到机架内部的所有布线,2.5米正好是极限。“所以当我们转向1.6Tbps 时,我们不能再用铜完全连接机架了。墙正在移动,而且是现在。”

Murphy 强调,这不是遥远的未来:“今后,即使是机架内的连接也将变成光学的。整个行业都知道这一点即将到来,所以我们一直在为这一刻做准备——不仅仅是 Marvell,而是整个行业。你可以在台湾看到这一点,在供应链和正在发生的产能爬坡中。”

铜墙每向右移动一步,连接数量至少增加一个数量级。“这正在创造我提到的需求爆炸,光学供应链需要大规模扩展并做好准备。”Murphy 回顾了20年前的类似转型:当时数据中心内部的最先进技术是10Gbps,整个数据中心都使用铜缆,光学基本上只是电信技术,保留用于非常长的距离。但当墙移动时,光学行业迎接了挑战,今天世界上所有的超大规模数据中心都是光学连接的。这次转型催生了新的解决方案——针对数据中心内部优化的 PAM4技术,而 Marvell 是那里的关键创新者之一。

5、CPO:光互联的下一个前沿
当光学进入机架内部时,需要的新技术叫做共封装光学(Co-Packaged Optics, CPO)。Murphy 花了相当篇幅详细阐述这一技术:“CPO 是一种将光学连接一直带到封装本身、紧邻计算的技术,无论是定制计算还是交换芯片。”

CPO 要解决的根本挑战是密度和功耗。机架内的连接数量是机架之间连接数量的10倍。“如果我们只是尝试使用数据中心机架间使用的相同光学技术,你不会有足够的功率,不会有足够的物理空间,无法容纳所有这些标准光学模块和电缆——这根本行不通,不可能。”Murphy 解释道。

CPO 的概念是将光纤直接带到封装,将驱动光纤信号的电子设备与定制计算或交换芯片紧密耦合。“这是一个巨大的变化,而且很难,因为你要结合芯片行业中一些最先进的技术:领先制程 CMOS、硅光子学、先进封装、光互连,所有这些都在一个小型紧密集成的系统中制造。复杂性非常高,但这是继续扩展带宽并克服我谈到的铜限制同时降低功耗的唯一方法。”

Murphy 强调这不是未来主义的东西,而是正在发生的现实。他在现场进行了实物展示:一边是传统的以太网交换机——当天宣布的102.4Tbps Teralink 交换机,可以看到板中央的交换芯片,PCB 内部的铜走线将信号传输到前面板,所有光学模块都插在那里。另一边是基于 CPO 的交换机——封装中央仍然是交换芯片(51.2Tbps 交换机),但边缘周围是16个3.2Tbps 光学引擎。“16乘以3.2,你得到51.2Tbps。所以光纤现在直接连接到这些引擎,而不是前面板。我们完全消除了 PCB 上的铜走线。光直接从封装中出来。这是一个非常非常复杂的工程作品。”Murphy 说。

Marvell 为 CPO 投入了十多年:硅光子学、光学 DSP、所有周围的模拟宽带组件,以及实现这一切所需的所有先进封装。“这一切实际上都需要在 CPO 中汇聚。”Murphy 说。

6、英伟达的背书与 NVLink Fusion 合作
Murphy 特别强调了与英伟达的战略合作扩展。几个月前宣布的合作中,英伟达向 Marvell 投资了10亿美元,双方正在扩展跨多个维度的合作,包括光学、光子学和 NVLink Fusion。黄仁勋亲自登台与 Murphy 对话,这本身就是一个强有力的信号。

黄仁勋详细解释了 NVLink Fusion 的战略意义:“有时候,也许云服务提供商想要设计自己的定制芯片。在我们之间,我们也在 NVLink Fusion 上合作,这使得你可以使用相同的系统架构,内部有 Marvell 的一些半定制芯片、大量互连、硅光子和光学技术。我们可以创建一个本质上分解、分布和异构的数据中心。”

关键是系统架构保持一致。“他们的网络技术可以利用大量英伟达的堆栈。CPU 可以是 Vera,但它可以利用大量你们的堆栈。所以 NVLink Fusion 是关于采用英伟达的技术和我们的平台、Marvell 的技术和平台,然后我们融合它。这就是为什么它被称为 fusion。”黄仁勋说。

Murphy 追问了铜到光学的转型时间表。黄仁勋的回答非常务实:“我们应该尽可能长时间地使用铜,但铜有其限制——带宽和距离的限制。所以最终正确的策略是:尽可能长时间地用铜进行 scale up。之后,用光学进一步 scale up,用光学 scale out,用光学跨越连接。所以你在必须的地方使用光学,在可以的地方使用铜。”

但黄仁勋随即给出了乐观的市场预测:“底线是,在未来五到十年,我们将使用大量的铜,也将使用大量大量的光学。这些数据中心现在是基础设施的一部分。我说 AI 现在有用、有用的 AI 已经到来的原因是,现在 AI 是有利可图的,token 是有利可图的。当 token 生产有利可图时,每个人都想制造更多 token,这就是为什么 Marvell 的需求如此之高,我们的需求也如此之高。因为每个人都想生产更多 token,因为它被 Agent 到处使用。”

7、无距离数据中心:光互联的终极愿景
Murphy 在演讲的最后部分描绘了一个激进的未来愿景:他当数据传输全部变成光学时,距离实际上不再重要。“这是一个深刻的变化。”说。

今天的服务器、机架和整体数据中心架构都是围绕距离的约束设计的,软件工作负载也围绕这些相同的约束进行了优化。但如果距离不再重要呢?

首先,scale-up 网络的规模可以从72个或144个 XPU/GPU 扩展到1000个或更多,全部光学互连。“对工作负载的影响是巨大的。今天,AI 工作负载必须分解成适合 scale-up 集群的更小子问题,因为在集群外部通信今天更慢、带宽低得多。但光学互连系统可以管理数量级更大的工作负载。”

其次,服务器本身可以被解构。现代 AI 服务器由一定数量的 CPU、XPU、内存和网络接口组成,它们都在同一系统上的原因是距离——CPU 和 XPU 需要以非常高的带宽访问内存,这意味着它们需要紧挨着坐在板上,铜走线作为它们之间的连接。“但在这些连接都是光学的未来,距离实际上不重要。你可以想象一个完全解构的架构——XPU 在一个系统中,内存在另一个系统中,巨大的 CPU 在另一个系统中。”

这解锁了另一种可能性:今天系统中 CPU 和 XPU/GPU 的比例是固定的,必须在系统构建和部署时定义。但没有两个工作负载需要完全相同的比例,这意味着在任何给定时间,计算或内存的某些部分可能未被充分利用——这要花钱。“但一旦我们将系统分解为独立的计算池和内存池,并且它们都是光学互连的,我们就可以动态组合专用系统,然后针对任何工作负载进行优化。”

Murphy 的终极愿景是“全球光学互连的数据基础设施”:“我们今天拥有的这些系统中的刚性边界开始消失。计算现在可以被池化,内存可以被池化,基础设施可以大规模动态组合。架构师第一次可以开始围绕模型的需求设计 AI 系统,而不是围绕互连的限制。”

他将这个愿景命名为“无距离数据中心”(data center without distance):“计算、内存、网络和光子学作为一个统一系统运行,数据中心中的数百万资源可以像一台机器一样协同工作,一个由工作负载需求定义的架构,而不是连接性的限制。我们相信这是计算基础设施的下一个时代,Marvell 正在帮助构建使这一切成为可能的连接基础。”

最后再多说点,
Marvell的核心竞争力集中在两个细分领域。
1、定制芯片(ASIC/XPU)设计。 Marvell与博通是全球两大定制AI加速器设计巨头。大厂自研芯片的趋势正在加速——比如微软的Maia 200推理芯片、亚马逊的Trainium系列,背后都有Marvell的参与。TrendForce的预测数据值得留意:2026年定制AI芯片销售增速预计为45%,而同期GPU的增速仅为16%。不是GPU不行,而是超大规模云厂商在推理端的成本压力正在推动它们加速自研定制方案。

2、数据中心互连产品线。 这是Marvell更深的一条护城河。根据其财报,光学互连产品收入保持两位数季度环比增长,数据中心交换机业务预计2027财年将突破5亿美元。Marvell过去十年通过一系列并购累计投入约360亿美元,围绕连接搭建了涵盖定制芯片、高速交换器、光模块、硅光子和先进封装的完整技术平台。

发布于 上海