#HDC2026# 华为自己大模型openPangu 2.0 Pro，505B 总参数配 18B 激活，28:1 稀疏比。稀疏比 28:1 在千亿参数档位的 MoE 里算是很激进的了，DeepSeek-V3 差不多 18:1.之所以要这么高的稀疏比，估计还是因为昇腾。要知道 910B 的显存带宽只有 1.6 TB/s，H200 是 4.8 TB/s 差了整整3倍，理论上不做

#HDC2026# 华为自己大模型openPangu 2.0 Pro，505B 总参数配 18B 激活，28:1 稀疏比。

稀疏比 28:1 在千亿参数档位的 MoE 里算是很激进的了，DeepSeek-V3 差不多 18:1.

之所以要这么高的稀疏比，估计还是因为昇腾。

要知道 910B 的显存带宽只有 1.6 TB/s，H200 是 4.8 TB/s 差了整整3倍，理论上不做双稀疏就根本跑不动 512K 上下文。

端侧同步发了一个 30B/2B，稀疏比没那么激进是15:1 ，但逻辑是一样的，跑在手机 NPU 上也要把专家切换频率降下去，推理时减少权重搬运。

等等看 Mate 90 系列的芯片怎么样。

至于盘古大模型是不是中国第一，只能说那时候盘古大模型其实是很多种模型。

盘古大模型 1.0 在 21 年发布，包括了 NLP 大模型、CV 大模型、科学计算大模型三类，别的不提至少 NLP 用的 encoder-decoder 架构，肯定算是基于 Transformer 的 LLM 了。

#余承东称盘古大模型会走向世界第一##余承东称字典里没有第二只有第一##余承东坦言自己留的算力很有限# http://t.cn/A6Sk35Db

发布于广东