#HDC2026# 华为自己大模型openPangu 2.0 Pro,505B 总参数配 18B 激活,28:1 稀疏比。
稀疏比 28:1 在千亿参数档位的 MoE 里算是很激进的了,DeepSeek-V3 差不多 18:1.
之所以要这么高的稀疏比,估计还是因为昇腾。
要知道 910B 的显存带宽只有 1.6 TB/s,H200 是 4.8 TB/s 差了整整3倍,理论上不做双稀疏就根本跑不动 512K 上下文。
端侧同步发了一个 30B/2B,稀疏比没那么激进是15:1 ,但逻辑是一样的,跑在手机 NPU 上也要把专家切换频率降下去,推理时减少权重搬运。
等等看 Mate 90 系列的芯片怎么样。
至于盘古大模型是不是中国第一,只能说那时候盘古大模型其实是很多种模型。
盘古大模型 1.0 在 21 年发布,包括了 NLP 大模型、CV 大模型、科学计算大模型三类 ,别的不提至少 NLP 用的 encoder-decoder 架构,肯定算是基于 Transformer 的 LLM 了。
#余承东称盘古大模型会走向世界第一##余承东称字典里没有第二只有第一##余承东坦言自己留的算力很有限# http://t.cn/A6Sk35Db
发布于 广东
