彼得罗浮斯基 26-05-01 21:18
微博认证:投资内容创作者

大模型的训练、推理、定价和架构,不是玄学,而是被硬件带宽、内存、批处理、MoE 通信拓扑共同“算”出来的。

请注意,数字是 Reiner Pope 基于公开定价、硬件参数和工程经验做的**反推/估算**,不是 OpenAI、Anthropic、Google 官方披露的内部数据。

一、最核心结论

这篇文章可以浓缩成一句话:

**今天的大模型不是单纯由算法决定,而是被 GPU 机架、内存带宽、KV Cache、批处理规模、MoE 通信模式共同塑造出来的。**

所以,为什么模型要做 MoE?
为什么推理要批处理?
为什么输出 token 比输入 token 贵?
为什么长上下文更贵?
为什么 Google TPU 可能有结构性优势?
为什么 Blackwell NVL72、Rubin、scale-up 网络这么重要?

背后都指向同一个底层逻辑:

**AI 的瓶颈正在从“单卡算力”转向“系统级互联 + 内存带宽 + 推理经济性”。**

---

二、GPU 机架决定 MoE 模型能做多大

文章最重要的硬件视角是:**MoE 模型天然依赖机架内高速互联。**

以 DeepSeek V3 为例,文中称它有 256 个专家,每次推理只激活一部分专家。MoE 的部署方式通常是“专家并行”:不同专家放在不同 GPU 上,token 会被路由到不同专家所在的 GPU。

这就产生一个问题:

**任意 GPU 都可能和任意 GPU 通信。**

所以它需要非常强的 all-to-all 通信能力。

NVIDIA Blackwell NVL72 的优势就在这里:一个机架里有 72 块 GPU,通过 NVLink / NVSwitch 做高速互联,机架内部通信很快。

但一旦跨出这个机架,进入 scale-out 网络,带宽就显著下降。文章里给出的说法是:**跨机架通信速度大约慢 8 倍。**

这意味着:

**一个机架的 scale-up 域,实际上限制了 MoE 专家层的规模上限。**

这也解释了为什么行业特别重视:

* NVL72
* Rubin 更大的 scale-up domain
* TPU Pod
* UALink
* Scale-up Ethernet
* CPO / 光互联 / OCS 等新型互联方案

因为未来大模型不是“单卡跑得快”就够了,而是要让更多 GPU 像一个超大芯片一样协同工作。

---

三、推理成本的秘密:batch size 可以省 1000 倍

文章最有价值的一个点,是解释了大模型推理为什么一定要做批处理。

模型每生成一个 token,都要读取模型权重。这个权重读取成本是固定的。

如果只服务 1 个用户,这个固定成本就由 1 个用户承担。
如果同时服务 2000 个用户,这个固定成本就被 2000 个请求摊薄。

所以批处理越大,单 token 成本越低。

文中给出的极端估算是:

**如果不做批处理,推理成本可能高出 1000 倍。**

这解释了为什么 Claude、Codex、Cursor 等产品会有“快速模式”和“普通模式”。

快速模式并不是简单地“算力更贵”,而是因为它可能牺牲了批处理效率,用更低延迟换更高成本。

但文章也指出,所谓“慢速模式”并不能无限便宜。

原因是:

**KV Cache 是每个用户独立的,无法像模型权重一样在不同用户之间摊销。**

所以让用户多等一会儿,最多能改善调度效率,但不能突破 KV Cache 和计算本身带来的成本下限。

---

四、为什么输出 token 比输入 token 贵很多?

文章解释了一个非常关键的 API 定价现象:

**大多数模型的输出 token 通常比输入 token 贵 3–5 倍。**

原因是 prefill 和 decode 的计算形态完全不同。

输入 token 阶段,也就是 prefill,可以一次性并行处理大量 token。这个阶段更接近计算受限,GPU 利用率相对更高。

输出 token 阶段,也就是 decode,每次只能生成一个 token。每生成一个 token,都要读取模型权重和历史 KV Cache。

所以 decode 更受内存带宽限制。

换句话说:

**输入 token 是批量处理,输出 token 是逐字吐出来。**

这就是为什么输出更贵。

对投资研究来说,这个点非常重要。因为它说明:

**推理成本的核心瓶颈不是单纯 FLOPS,而是内存带宽、KV Cache、互联和调度效率。**

这也解释了为什么 HBM、先进封装、scale-up 网络、光互联的重要性越来越高。

---

五、长上下文为什么更贵?

文章用 Gemini 的 API 定价举例:超过 20 万 token 后价格上涨 50%。

Pope 的推断是:

**20 万 token 附近可能是模型从计算瓶颈切换到内存带宽瓶颈的临界点。**

上下文越长,KV Cache 越大。
KV Cache 越大,每次 decode 要读取的历史信息越多。
最终内存带宽压力会超过计算压力。

所以长上下文不是单纯“多放点文本”这么简单,而是会显著增加推理成本。

文章进一步根据定价反推出,每个 token 的 KV Cache 大约是 2KB 左右。这个数字对应某些公开论文中提到的 KV head 设计,具有一定合理性。

这里的重点不是具体数字,而是方法论:

**API 定价本身可能泄露模型架构信息。**

比如:

* 长上下文提价点,反映 KV Cache 成本拐点;
* 输出/input 价差,反映 decode 与 prefill 的成本差;
* cache hit 折扣,反映不同存储层级的成本差异;
* 5 分钟缓存与 1 小时缓存,可能对应 SSD 和 HDD 等不同存储介质。

这个思路很有意思:
**公开价格表,其实是一张被包装过的模型成本曲线。**

---

六、GPT-5 被“过度训练”了多少?文章说大约 100 倍

这部分是全文最震撼,但也最需要谨慎看待的内容。

Pope 的框架是:

一个模型的最优经济状态,应该让三类成本大致相等:

1. 预训练成本;
2. RL / 后训练成本;
3. 用户推理成本。

如果一个模型上线后会被大量用户反复调用,那么训练时多花一些成本是合理的,因为后续推理规模足够大,可以摊薄训练成本。

文章用一个估算:

* 假设前沿模型推理流量约 5000 万 token/秒;
* 模型生命周期约 2 个月;
* 那么总推理 token 约 200 万亿;
* 如果活跃参数约 1000 亿;
* 按 Chinchilla scaling law,理论最优训练 token 约 2 万亿;
* 实际前沿模型可能训练 150–200 万亿 token;
* 所以大约是 Chinchilla 最优值的 100 倍。

这个结论的真正含义是:

**Chinchilla 只是在“训练算力最优”框架下的结论,但今天前沿模型追求的是“训练 + 推理 + 商业化”的综合最优。**

所以大模型被大量“过训练”,不是浪费,而是为了降低推理成本、提升用户体验、延长模型商业生命周期。

这对 AI 投资的启发是:

**如果推理需求足够大,前期训练投入就会越来越合理。**

这也是为什么大厂敢继续堆训练、堆数据、堆 RL、堆推理基础设施。

---

七、流水线并行为什么没想象中有用?

文章讨论了 pipeline parallelism,也就是把模型不同层放在不同机架上串行执行。

直觉上看,这可以把模型拆开,降低单个机架的内存压力。

但 Pope 认为,在推理场景里,流水线并行价值有限。

原因是:

**流水线可以分摊模型权重,但不能有效分摊 KV Cache。**

推理时,为了填满流水线,需要更多在途 batch。
流水线级数增加,会让全局 batch 变大。
最后每个 GPU 的 KV Cache 压力并没有真正下降。

所以流水线并行只解决了一部分内存容量问题,但解决不了核心的 KV Cache 问题。

这也是为什么前沿推理系统更倾向于:

* 尽可能用满一个 scale-up 域;
* 使用专家并行;
* 少量使用流水线;
* 尽量避免跨机架 all-to-all 通信。

这再次说明:

**更大的 scale-up 域,比简单堆更多机架更重要。**

---

八、Google TPU 为什么可能有优势?

文章提到一个非常值得关注的推断:

**Google 的 TPU 系统长期拥有更大的 scale-up 域,因此更适合大规模 MoE 和 all-to-all 通信。**

如果这个判断成立,那么 Gemini 在某些模型架构上可能天然有系统优势。

这个优势不是单个芯片算力,而是:

* 更大的互联域;
* 更高效的全局通信;
* 更适合高稀疏度 MoE;
* 更适合超长上下文和高吞吐推理。

这也是为什么不能只用“GPU 数量”来判断 AI 能力。
真正要看的是:

**芯片 + 内存 + 网络 + 编译器 + 调度 + 模型架构的整体系统能力。**

Google 的优势可能就在系统协同。

---

九、对 AI 基建投资的启发

这篇文章对投资的启发非常直接。

## 1. AI 基建不是简单买 GPU

未来 AI 基建的瓶颈越来越系统化:

* GPU / ASIC;
* HBM;
* Scale-up 网络;
* Scale-out 网络;
* 光模块;
* CPO;
* OCS;
* SSD / HDD 存储;
* KV Cache 管理;
* 推理调度系统。

模型越强,推理需求越大,瓶颈越会从“训练算力”扩散到整个数据中心系统。

## 2. 光互联的重要性会持续上升

MoE、长上下文、agentic workflow 都会增加通信和内存压力。

尤其是 MoE 的专家并行,需要大量 all-to-all 通信。
跨机架通信慢 8 倍这个问题,本质上就是互联瓶颈。

所以未来光通信不只是 scale-out 网络受益,scale-up 和 scale-across 的价值也会越来越大。

这对光模块、硅光、CPO、LPO/XPO、OCS 都是长期逻辑支撑。

## 3. HBM 和存储都会变得更重要

文章强调 KV Cache 是推理阶段的核心成本之一。

KV Cache 需要内存,也需要存储。
长上下文、agent、多轮对话、代码任务都会放大 KV Cache 压力。

所以 AI 推理时代不仅需要 HBM,也可能重新抬高 SSD 甚至 HDD 在数据中心里的战略价值。

这和你之前关注的 SSD、闪迪、西数、Kioxia、HBM、HBF 等逻辑是连起来的。

## 4. 推理经济性是 AI 商业模式能否跑通的关键

如果批处理、缓存、MoE、长上下文优化做得好,推理成本会大幅下降。
如果推理成本下降,AI 应用的毛利率就能改善。
如果毛利率改善,AI 商业模式就会进入正循环。

所以 AI 投资不能只看“模型能力提升”,还要看:

**单位 token 成本是否持续下降。**

这才是 AI 商业化的底层曲线。

---

十、我认为这篇内容最值得记住的 5 句话

1. **模型架构不是拍脑袋设计的,而是被硬件成本函数塑造出来的。**

2. **MoE 的规模上限,很大程度取决于 scale-up 域,而不是单纯 GPU 数量。**

3. **推理成本的核心是批处理、KV Cache 和内存带宽,不只是 FLOPS。**

4. **API 定价本身可能泄露模型架构和成本结构。**

5. **AI 下一阶段的胜负手,是系统工程:芯片、内存、互联、调度、模型架构必须一起优化。**

---

十一、需要保持怀疑的地方

这篇文章很有启发,但不能全部当成事实。

几个点需要谨慎:

第一,GPT-5 的训练 token 数、活跃参数量、推理流量都是估算,并非官方披露。

第二,Gemini 定价反推架构的方法很聪明,但价格不一定完全等于成本。厂商也会考虑竞争、利润、补贴、产品策略。

第三,MoE 是否严格被单个机架限制,还取决于具体网络拓扑、调度策略、专家放置策略和通信优化。

第四,HDD 用于 1 小时 prompt cache 的判断很有意思,但也属于推断,不能直接当成已证实结论。

第五,文章对“流水线并行价值有限”的判断偏推理场景,在训练场景中 pipeline parallelism 仍然有其工程价值。

---

十二、最终总结

这篇内容的真正价值,不是告诉我们某个模型到底有多少参数,而是提供了一个理解 AI 基建的新框架:

**大模型的能力提升,不只是算法问题,而是数据中心系统工程问题。**

过去大家看 AI,容易只看模型榜单、参数规模、训练数据。
但真正深入之后会发现,决定 AI 能不能跑得快、跑得便宜、跑得久的,是一整套底层约束:

* 权重怎么读;
* KV Cache 怎么放;
* token 怎么批处理;
* 专家怎么通信;
* GPU 怎么互联;
* 机架之间怎么传输;
* 长上下文怎么定价;
* 推理流量怎么摊薄训练成本。

所以 AI 进入推理时代后,真正重要的不是一句“算力过剩”或者“模型降价”,而是:

**整个 AI 工厂的单位 token 成本,能不能继续下降。**

只要 token 成本持续下降、模型能力持续上升、应用调用量持续扩大,AI 的商业正循环就还没有结束。

发布于 新加坡