老牛慧眼观市
24-12-26 15:03 微博认证:湖北经济学院 教师 财经观察官 财经博主

英伟达发布AI新核弹B300和GB300 引领芯片和制造业变革

英伟达CEO黄仁勋最近被网友戏称为“圣诞老黄”,因为英伟达刚刚曝光了两款重量级AI芯片大礼包:GPU新核弹B300和附带CPU的超级芯片GB300。这些新产品在性能和规格上都相较B200系列有显著提升,其中B300的计算能力在FLOPS上提高了50%,显存从192GB提升到288GB,同样提高了50%。此外,“新一代计算单元”GB300 NVL72由72块GB300组成,被评价为“唯一能让OpenAI o1/o3大模型推理达到10万tokens的方案”。

这些新品距离今年3月发布的B200系列仅隔了几个月,根据SemiAnalysis的爆料,从第三季度开始,许多AI巨头已经将订单从B200转向了B300,只有微软在第四季度仍采购了一些B200。不少网友感叹英伟达的更新速度之快,既解决了B200设计缺陷导致的延迟问题,也回应了AMD MI300系列计划在2025年提升显存容量的挑战。

新品性能提升的关键

虽然B300仍属于Blackwell架构,没有跨代,但其性能的提升主要源自以下几点:
1. 工艺节点保持台积电4NP,但采用全新流片技术。
2. 功率增加:GB300和B300 HGX的TDP分别达到1.4KW和1.2KW,相较B200系列提升了0.2KW。
3. 架构微创新:引入CPU和GPU之间的动态功率分配机制。

显存方面,B300从8层堆叠的HBM3E升级到12层(12-Hi HBM3E),显存容量从192GB提升至288GB,显存带宽保持在8TB/s。这些改进使B300成为满足高性能AI推理需求的核心解决方案。

与GB200系列不同,GB300系列不再提供完整的Bianca Board,而是只提供参考板,客户需要自行采购内存模块等组件。这种设计为OEM和ODM制造商带来了新的市场机会。

专为推理大模型打造

显存的升级对推理大模型(如OpenAI o1/o3)至关重要,尤其是在增加KVCache、影响批处理大小和延迟时表现尤为明显。一个GB300 NVL72计算单元可以让72块GPU以极低延迟共享显存,显著降低推理成本、提升性能并延长推理思维链长度。这些提升最终可以提高大模型的能力,并缩短用户响应时间。

SemiAnalysis举例分析了不同GPU在处理长序列时的表现。以H100和H200为例,在相同的FP8精度下,H200凭借更大的内存带宽和更高的批处理能力,使得每秒生成的token数量增加了3倍,推理成本减少了约3倍。这种性能提升不仅提高了用户体验,也远超摩尔定律的增速。

此外,具有更强性能和差异化的大模型还能收取更高的溢价。顶尖模型的毛利率超过70%,而与开源模型竞争的次一级模型毛利率仅20%左右。这进一步凸显了B300系列对AI大模型的重要意义。

英伟达的杀手锏:NVLink

虽然其他公司也在提升显存,但英伟达拥有独特的NVLink技术,这使其在高效内存共享和计算资源整合方面占据优势,进一步巩固了其市场地位。

One More Thing

除了AI芯片,英伟达还在消费级显卡领域曝出新品RTX 5090的消息。一张RTX 5090的PCB照片近日在网上疯传,显卡采用超大尺寸设计,传闻将配备32GB大显存,可支持8K超高清游戏,达到60fps的流畅体验。网友猜测RTX 5090可能会在2024年1月6日黄仁勋的CES演讲中正式发布。

英伟达通过B300和GB300系列芯片的推出,不仅巩固了其在AI领域的领导地位,还通过性能和架构创新进一步推动了AI推理和训练效率的发展,同时为未来的消费级显卡设立了更高的标准。

发布于 湖北