英伟达发布AI新核弹B300和GB300 引领芯片和制造业变革英伟达CEO黄仁勋最近被网友戏称为“圣诞老黄”，因为英伟达刚刚曝光了两款重量级AI芯片大礼包：GPU新核弹B300和附带CPU的超级芯片GB300。这些新产品在性能和规格上都相较B200系列有显著提升，其中B300的计算能力在FLOPS上提高了50%，显存从192GB

英伟达发布AI新核弹B300和GB300 引领芯片和制造业变革

英伟达CEO黄仁勋最近被网友戏称为“圣诞老黄”，因为英伟达刚刚曝光了两款重量级AI芯片大礼包：GPU新核弹B300和附带CPU的超级芯片GB300。这些新产品在性能和规格上都相较B200系列有显著提升，其中B300的计算能力在FLOPS上提高了50%，显存从192GB提升到288GB，同样提高了50%。此外，“新一代计算单元”GB300 NVL72由72块GB300组成，被评价为“唯一能让OpenAI o1/o3大模型推理达到10万tokens的方案”。

这些新品距离今年3月发布的B200系列仅隔了几个月，根据SemiAnalysis的爆料，从第三季度开始，许多AI巨头已经将订单从B200转向了B300，只有微软在第四季度仍采购了一些B200。不少网友感叹英伟达的更新速度之快，既解决了B200设计缺陷导致的延迟问题，也回应了AMD MI300系列计划在2025年提升显存容量的挑战。

新品性能提升的关键

虽然B300仍属于Blackwell架构，没有跨代，但其性能的提升主要源自以下几点：
1. 工艺节点保持台积电4NP，但采用全新流片技术。
2. 功率增加：GB300和B300 HGX的TDP分别达到1.4KW和1.2KW，相较B200系列提升了0.2KW。
3. 架构微创新：引入CPU和GPU之间的动态功率分配机制。

显存方面，B300从8层堆叠的HBM3E升级到12层（12-Hi HBM3E），显存容量从192GB提升至288GB，显存带宽保持在8TB/s。这些改进使B300成为满足高性能AI推理需求的核心解决方案。

与GB200系列不同，GB300系列不再提供完整的Bianca Board，而是只提供参考板，客户需要自行采购内存模块等组件。这种设计为OEM和ODM制造商带来了新的市场机会。

专为推理大模型打造

显存的升级对推理大模型（如OpenAI o1/o3）至关重要，尤其是在增加KVCache、影响批处理大小和延迟时表现尤为明显。一个GB300 NVL72计算单元可以让72块GPU以极低延迟共享显存，显著降低推理成本、提升性能并延长推理思维链长度。这些提升最终可以提高大模型的能力，并缩短用户响应时间。

SemiAnalysis举例分析了不同GPU在处理长序列时的表现。以H100和H200为例，在相同的FP8精度下，H200凭借更大的内存带宽和更高的批处理能力，使得每秒生成的token数量增加了3倍，推理成本减少了约3倍。这种性能提升不仅提高了用户体验，也远超摩尔定律的增速。

此外，具有更强性能和差异化的大模型还能收取更高的溢价。顶尖模型的毛利率超过70%，而与开源模型竞争的次一级模型毛利率仅20%左右。这进一步凸显了B300系列对AI大模型的重要意义。

英伟达的杀手锏：NVLink

虽然其他公司也在提升显存，但英伟达拥有独特的NVLink技术，这使其在高效内存共享和计算资源整合方面占据优势，进一步巩固了其市场地位。

One More Thing

除了AI芯片，英伟达还在消费级显卡领域曝出新品RTX 5090的消息。一张RTX 5090的PCB照片近日在网上疯传，显卡采用超大尺寸设计，传闻将配备32GB大显存，可支持8K超高清游戏，达到60fps的流畅体验。网友猜测RTX 5090可能会在2024年1月6日黄仁勋的CES演讲中正式发布。

英伟达通过B300和GB300系列芯片的推出，不仅巩固了其在AI领域的领导地位，还通过性能和架构创新进一步推动了AI推理和训练效率的发展，同时为未来的消费级显卡设立了更高的标准。

发布于湖北