大家似乎都猜错了,Groq LPU不是当分解推论的Decoder,分解推论的Prefiller和Decoder都是Rubin GPU担任,Decode再分解为Attention和FFN/MoE两部分(AFD),其中的FFN/MoE这一部分专门给LPU做,LPU等于是Decode Rubin GPU的外包商 [吃瓜]
Disaggregated Inference(P/D推论)中
1. Prefill是计算密集: Rubin GPU
2. Decode是记忆体频宽密集: Rubin GPU
2的部分再进行AFD(Attention-FFN Disaggregation)
LLM的decode每一层layer要进行Attention和FFN/MoE两阶段,100层就要做100次,Attention需要大记忆体容量,LPU SRAM容量太小不适合(500MB,LPX整柜才128GB吃不下大LLM权重),还是给Rubin GPU做(288GB HBM4),然后,一般稠密模型的FFN处理或近期主流的MoE模型路由给选定专家们做,需要极频繁的存取记忆体/记忆体频宽密集,适合给LPU的SRAM做,因此有三个角色
(1)Prefill: Rubin GPU晶片/VR NVL72机柜
(2)Decode-Attention: Rubin GPU晶片/VR NVL72机柜
(3)Decode-FFN/MoE: Groq 3 LPU晶片/Groq 3 LPX 256机柜
(2)和(3)是一个loop来回很多次
(1)(2)(3)的晶片数量可以自己视推论工作任务负载自行搭配数量,可以是晶片数、Tray数、机柜数(clusters)
(1)和(2)之间的KV Cache通讯可以用NVLink-Scale Up(在同一个NVLink domain内),或用RDMA Ethernet(Scale Out如Spectrum X),当(1)(2)GPU数量很大形成许多机柜或Prefill clusters和Decode clusters的时候,也只能用Etherent通讯
(2)和(3)之间的Interim Decode Activations通讯目前只能用Scale Out RDMA Ethernet/IB,因为LPU来不及整合进NVLink,以后才会在LPX机柜中让每颗LPU用NVLink通讯
(1)和(3)之间不需要通讯,因为(3)是(2)的外包商
LPU/LPX除了AFD中当Decode-FFN/MoE之外,最近的理论是在LLM之中内建一个小模型来预测解码,一段之后给LLM验证,以加快速度,LPU/LPX也很适合执行预测解码用的小模型,例如唐诗/古文/莎士比亚经典桥段,小小模型就会做不需要动用LLM几兆参数逐token生成,内部小模型预测一小段tokens,给LLM验证无误,就继续给小模型推论......
结论是Nvidia的脚步好快阿,许多技术在论文阶段刚刚要过渡普及的时候,Nvidia就有产品了,想到TPU最新的v7 Ironwood还不支援硬体原生FP4量化,产品规格就比Nvidia慢了快两年,Google还是AI前沿模型和论文生产大厂......
-------------------------------------------------
"LPX 与 Vera Rubin NVL72 一同部署,加速解码回圈中对延迟敏感的部分,包括 FFN 与 MoE 专家执行,而 Rubin GPU 则持续处理预填充与解码注意力。两者共同提供异质的服务路径,提升互动回应性,同时不牺牲 AI 工厂的吞吐量。
......
LPX 的核心是 NVIDIA Groq 3 LPU,设计目标是透过紧密结合运算、记忆体与通讯,在编译器控制下,实现快速且可预测的令牌产生。LPU 的架构设计为透过紧密耦合运算、记忆体与通讯,在编译器控制下提供快速且可预测的令牌产生。LPU 不仅优化峰值算术吞吐量,更强调确定性执行、高片上记忆体频宽及明确的资料移动。这些能力对于以解码为主、延迟敏感的推论体系尤其重要。......LPU 建立在 Groq 的空间执行模型之上,编译器明确排程计算、资料移动与同步。编译器不再依赖执行时动态硬体排程器,而是依赖硬体上的准同步晶片间协定,消除自然时脉漂移,并将数百个 LPU 加速器对齐,作为一个单一协调系统运作。透过可预测的资料抵达与定期的软体同步,开发者能更直接地推理时间,系统也能以更明确的决定性协调计算与网路行为。
......
优化以最大汇总吞吐量为目标的系统,并不总是最适合需要快速且可预测产生每个请求令牌的工作负载。
在代理型人工智慧中,这个挑战更加明显,系统不断循环进行推理、检索、工具使用与推理。在这些回圈中,延迟在每个步骤累积,使得稳定的每个代币效能与强的尾延迟行为对响应式使用者体验至关重要。
......
Rubin GPU 是训练与推理中灵活且通用的主力。它们能在多种模型规模、批次架构及服务模式中提供高吞吐量,从长上下文预填充到解码注意力及大规模高并发推论。
LPX 新增了一条专门的路径,优化于快速且对延迟敏感的代币生成。两者共同实现异质推论设计,提升互动响应性,同时不牺牲系统规模效率。
......
预填充阶段主要以接收大量输入及建立 KV 快取为主——此工作负载受益于密集的平行运算与大容量记忆体容量。Vera Rubin NVL72 能有效处理此阶段,尤其适用于长上下文工作负载及环境管理模式(MoE)模型,因为上下文可能庞大且变化大。
解码阶段则不同。解码是每个标记重复的回圈,回路的不同部分会造成不同的瓶颈。在 Vera Rubin 平台架构中的 LPX 中,解码最好被视为双引擎回圈。GPU 处理最受益于吞吐量与大记忆体容量的解码工作,例如对累积的 KV 快取进行全上下文注意力。LPX 加速解码中对延迟敏感的执行,例如稀疏的 MoE 专家前馈网路(FFN)及其他逐点操作。这种分离通常称为解码阶段拆分或注意力-FFN 拆分(AFD),在解码中将注意力与 FFN 分离,并为每个标记交换中间激活,使每个引擎执行回圈中最适合执行的部分。此 AFD 回路扩展了帕累托前沿最高价值的操作区域。在机架规模及更高层级,LPX 被设计成一个高度协调的运算单元,减少协调负担并减少抖动。这在解码量大、代理型的工作流程中非常有价值,因为许多模型呼叫与验证回路中会有小延迟累积。
......
实务上,Dynamo 会将预填充路由给 GPU 工作者,以处理大型上下文并建立 KV 快取。解码过程中,Dynamo 会协调 AFD 回圈,GPU 对累积的 KV 快取进行注意,中间启动则交由 LPU 执行 FFN/MoE,输出则回传给 GPU 继续产生令牌。结果是一条单一连贯的服务路径,具备更可预测的尾部延迟,同时维持高 AI 工厂吞吐量。透过 KV 感知路由、低开销传输及以延迟目标为导向的排程,Dynamo 帮助互动式会话避免长队列,减少跨租户抖动,并在并行与请求形状变化时维持稳定的尾端延迟。最终成果是一个生产准备就绪的异质服务模型,能在大规模下提供反应灵敏的用户体验,同时维持高 AI 工厂吞吐量。
......
推测解码是降低大型语言模型推论延迟的一项日益重要的技术。此方法使用较小的草稿模型预先产生多个候选代币,而较大的目标模型则会并行验证并接受这些代币。当预测结果一致时,可以同时提交多个标记,显著提升每秒有效标记数并降低回应延迟。
LPX 非常适合在此架构中作为草图生成引擎。LPU 的确定性执行模型与极高的片上 SRAM 频宽,使草稿代币生成速度极快,使草稿模型能先于验证者执行。同时,像 Rubin 这类 GPU 在大型模型执行任务(如预填充、注意力处理及令牌验证)上仍保持高度效率。"
