3、NVIDIA Vera CPU机架
智能体模型的训练和部署推理都离不开CPU。GPU需要调用CPU来执行工具调用、SQL查询和代码编译等任务,CPU的速度至关重要。
英伟达将Vera CPU称作“专为智能体AI工作负载打造的最佳CPU”。
Vera搭载全新Olympus核心,是全球唯一使用LPDDR5的数据中心CPU,结合高性能与高能效的核心设计、高带宽内存子系统以及第二代英伟达可扩展计算Fabric,能在各类智能体应用场景和强化学习极端条件下提供更快的响应速度。
相比传统x86 CPU,Vera单线程性能提升50%,每核心内存带宽提升至3倍,能效翻倍。
今日,英伟达发布全新NVIDIA Vera CPU机架。
该机架搭载256台液冷Vera CPU,提供400TB内存、300TB/s内存带宽,集成64颗BlueField-4 DPU,全面兼容Vera Rubin与MGX生态系统。
图片
英伟达已完成初步芯片测试,Vera在各类工作负载上的性能提升从2倍到超过5倍不等。
4、BlueField-4 STX存储机架
随着智能体应用规模扩大,数据需求也在膨胀。
传统数据中心提供大容量的通用存储,但缺乏AI智能体所需的即时响应能力。随着上下文窗口增长、AI能力提升,传统存储路径和数据通路会拖慢AI推理速度、降低GPU利用率。
为此,英伟达推出全新的BlueField-4 STX存储机架。
这是一个原生存储基础设施,基于BlueField-4 DPU,结合Vera CPU和ConnectX-9 SuperNIC,可将GPU内存无缝扩展至POD计算集群中。
STX提供了一种高带宽共享层,用于存储和检索大语言模型及智能体AI工作流所产生的海量KV Cache数据。
该机架可实现能效比提升至4倍,企业数据翻页速率提升至2倍,同时让AI工厂的上下文记忆每秒token处理速率快5倍。
5、Spectrum-6 SPX以太网机架
Spectrum-6 SPX以太网机架用于全数据中心横向扩展的互连网络,让以上所有系统连成整体。
与传统可插拔收发器相比,带有共封装光学器件(CPO)的Spectrum-X以太网光子技术实现了多达5倍的光学功率效率和10倍的弹性。
6、Vera Rubin DSX AI工厂参考设计和Omniverse DSX数字孪生蓝图
要在数据中心部署上述全新计算集群和架构,必须考虑如何运营,并帮助整个数据中心生态系统实现效能提升。
因此,英伟达发布Vera Rubin DSX AI工厂参考设计,这是一个AI基础设施蓝图,概述了如何设计、构建、操作整个AI工厂基础设施堆栈,可最大限度提高每瓦token和整体实际吞吐量,提高系统弹性并加快首次生产的时间。
基于Rubin平台部署DSX架构后,AI工厂能在固定功耗下,实现能效比提升30%,同时增加30%的AI算力部署规模。
图片
NVIDIA Omniverse DSX蓝图现在提供NVIDIA Vera Rubin DSX AI工厂参考设计,为大型AI工厂设计和模拟提供数字孪生。
开发者通过以下几个API接入:
DSX Sim,用于物理、电气、热力和网络仿真;
DSX Exchange,用于AI工厂运营数据交换;
DSX Flex,用于电网与数据中心之间安全的动态功率管理;
DSX Max-Q,用于动态最大化Token吞吐量。
7、NVIDIA RTX PRO 4500 Blackwell服务器版
在GTC期间,英伟达还发布了NVIDIA RTX PRO 4500 Blackwell服务器版,为全球应用广泛的企业数据中心和边缘计算平台(包括本地部署和云端)带来多工作负载GPU加速功能。
8、Vera Rubin AI太空计算模块
“我们已经进入太空了,”黄仁勋说,“我们有抗辐射的GPU,我们在卫星上进行成像。未来,我们还将在太空中建造数据中心。”
这很复杂,所以,英伟达正与合作伙伴研发一款新型计算机,称作NVIDIA Space-1 Vera Rubin Module,将发射入轨并在太空中建立数据中心。
这是一款面向太空优化的AI计算模块,支持实时感知、决策和自主运作,将数据中心级AI计算性能带到轨道数据中心、地理空间智能和自主空间与运营。
在太空中没有传导、没有对流,只有辐射散热,所以必须想办法冷却这些系统,英伟达有很多优秀的工程师正在研究。
核心观点
英伟达Vera Rubin平台不再是简单的芯片迭代,而是对“AI工厂”基础设施的彻底重构。 它通过异构协同(GPU+CPU+LPU)与极致集成(机架即电脑),将算力、存储、网络与能源管理融为一体,旨在构建一个能实时生成“智能Token”的全栈系统。
01 算力底座:异构协同,各司其职
Vera Rubin平台定义了AI工厂的三种核心处理器,分别解决不同痛点:
* Vera CPU(编排与调度):搭载88个定制Olympus核心,是全球首款采用LPDDR5X的数据中心CPU。相比传统CPU,单线程性能提升50%,内存带宽高达1.2TB/s。它专为智能体而生,负责处理复杂的工具调用、SQL查询及代码编译,充当AI工作流的“指挥中心”。
* Rubin GPU(算力与吞吐):拥有3360亿晶体管,HBM4显存带宽达22TB/s,是前代Blackwell的2.7倍。其核心优势在于高吞吐量,负责处理模型预填充和复杂计算任务,是AI工厂的“动力引擎”。
* Groq 3 LPU(延迟与带宽):虽然SRAM容量小,但拥有150TB/s的极致带宽。它被设计为“Token加速器”,专门处理低延迟、高并发的解码生成任务,解决大模型推理的“带宽墙”问题。
02 存储与网络:打破数据瓶颈
* BlueField-4 STX(AI原生存储):这是为长上下文推理量身定制的存储架构。它通过共享POD级KV缓存,将GPU内存无缝扩展至整个集群,使智能体在处理超长对话时无需重复计算,将数据摄取速度翻倍,能效提升4倍。
* Spectrum-6 SPX(光进铜退):采用共封装光学(CPO)技术,将光模块直接集成在芯片封装中。相比传统架构,能效提升3.5倍,系统可靠性提高10倍,解决了机架间海量数据互连的功耗和延迟问题。
03 系统集成:机架即电脑
* NVL72 机架:将72个Rubin GPU、36个Vera CPU通过NVLink 6全互联,机架内互联带宽达260TB/s。全液冷设计,无缆化架构,组装速度比上一代快18倍。在训练大型混合专家模型时,所需GPU数量仅为前代的1/4,Token成本降至1/10。
* DSX AI工厂参考设计:这是AI工厂的“施工蓝图”。通过DSX Max-Q软件在固定功耗下最大化Token吞吐量,DSX Flex软件动态管理电网用电,DSX Sim数字孪生提前验证工厂设计。行业巨头如达索、施耐德电气已将其集成到工程平台中。
04 边缘与太空:算力无边界
* RTX PRO 4500:服务器版显卡,TDP降至165W,采用被动散热,专为企业数据中心和边缘计算平台提供轻量级GPU加速。
* Space-1 太空模块:基于Rubin GPU,专为太空环境设计,支持辐射防护和真空散热。相比H100,AI推理性能提升最高25倍,将数据中心级算力带入轨道,支持卫星自主运行和实时地理空间分析。
05 上市节奏
* 量产状态:Vera Rubin平台所有芯片已全面投产。
* 交付时间:预计2026年下半年开始出货,由戴尔、HPE、联想等合作伙伴提供系统。
一句话总结:Vera Rubin标志着AI算力从“堆砌芯片”转向“系统级协同”,通过极致的软硬件协同设计,将AI工厂的每瓦Token产出推向了新的极限。