大模型硬件系统解析

大模型的训练、推理、定价和架构，不是玄学，而是被硬件带宽、内存、批处理、MoE 通信拓扑共同“算”出来的。

请注意，数字是 Reiner Pope 基于公开定价、硬件参数和工程经验做的**反推/估算**，不是 OpenAI、Anthropic、Google 官方披露的内部数据。

一、最核心结论

这篇文章可以浓缩成一句话：

**今天的大模型不是单纯由算法决定，而是被 GPU 机架、内存带宽、KV Cache、批处理规模、MoE 通信模式共同塑造出来的。**

所以，为什么模型要做 MoE？
为什么推理要批处理？
为什么输出 token 比输入 token 贵？
为什么长上下文更贵？
为什么 Google TPU 可能有结构性优势？
为什么 Blackwell NVL72、Rubin、scale-up 网络这么重要？

背后都指向同一个底层逻辑：

**AI 的瓶颈正在从“单卡算力”转向“系统级互联 + 内存带宽 + 推理经济性”。**

---

二、GPU 机架决定 MoE 模型能做多大

文章最重要的硬件视角是：**MoE 模型天然依赖机架内高速互联。**

以 DeepSeek V3 为例，文中称它有 256 个专家，每次推理只激活一部分专家。MoE 的部署方式通常是“专家并行”：不同专家放在不同 GPU 上，token 会被路由到不同专家所在的 GPU。

这就产生一个问题：

**任意 GPU 都可能和任意 GPU 通信。**

所以它需要非常强的 all-to-all 通信能力。

NVIDIA Blackwell NVL72 的优势就在这里：一个机架里有 72 块 GPU，通过 NVLink / NVSwitch 做高速互联，机架内部通信很快。

但一旦跨出这个机架，进入 scale-out 网络，带宽就显著下降。文章里给出的说法是：**跨机架通信速度大约慢 8 倍。**

这意味着：

**一个机架的 scale-up 域，实际上限制了 MoE 专家层的规模上限。**

这也解释了为什么行业特别重视：

* NVL72
* Rubin 更大的 scale-up domain
* TPU Pod
* UALink
* Scale-up Ethernet
* CPO / 光互联 / OCS 等新型互联方案

因为未来大模型不是“单卡跑得快”就够了，而是要让更多 GPU 像一个超大芯片一样协同工作。

---

三、推理成本的秘密：batch size 可以省 1000 倍

文章最有价值的一个点，是解释了大模型推理为什么一定要做批处理。

模型每生成一个 token，都要读取模型权重。这个权重读取成本是固定的。

如果只服务 1 个用户，这个固定成本就由 1 个用户承担。
如果同时服务 2000 个用户，这个固定成本就被 2000 个请求摊薄。

所以批处理越大，单 token 成本越低。

文中给出的极端估算是：

**如果不做批处理，推理成本可能高出 1000 倍。**

这解释了为什么 Claude、Codex、Cursor 等产品会有“快速模式”和“普通模式”。

快速模式并不是简单地“算力更贵”，而是因为它可能牺牲了批处理效率，用更低延迟换更高成本。

但文章也指出，所谓“慢速模式”并不能无限便宜。

原因是：

**KV Cache 是每个用户独立的，无法像模型权重一样在不同用户之间摊销。**

所以让用户多等一会儿，最多能改善调度效率，但不能突破 KV Cache 和计算本身带来的成本下限。

---

四、为什么输出 token 比输入 token 贵很多？

文章解释了一个非常关键的 API 定价现象：

**大多数模型的输出 token 通常比输入 token 贵 3–5 倍。**

原因是 prefill 和 decode 的计算形态完全不同。

输入 token 阶段，也就是 prefill，可以一次性并行处理大量 token。这个阶段更接近计算受限，GPU 利用率相对更高。

输出 token 阶段，也就是 decode，每次只能生成一个 token。每生成一个 token，都要读取模型权重和历史 KV Cache。

所以 decode 更受内存带宽限制。

换句话说：

**输入 token 是批量处理，输出 token 是逐字吐出来。**

这就是为什么输出更贵。

对投资研究来说，这个点非常重要。因为它说明：

**推理成本的核心瓶颈不是单纯 FLOPS，而是内存带宽、KV Cache、互联和调度效率。**

这也解释了为什么 HBM、先进封装、scale-up 网络、光互联的重要性越来越高。

---

五、长上下文为什么更贵？

文章用 Gemini 的 API 定价举例：超过 20 万 token 后价格上涨 50%。

Pope 的推断是：

**20 万 token 附近可能是模型从计算瓶颈切换到内存带宽瓶颈的临界点。**

上下文越长，KV Cache 越大。
KV Cache 越大，每次 decode 要读取的历史信息越多。
最终内存带宽压力会超过计算压力。

所以长上下文不是单纯“多放点文本”这么简单，而是会显著增加推理成本。

文章进一步根据定价反推出，每个 token 的 KV Cache 大约是 2KB 左右。这个数字对应某些公开论文中提到的 KV head 设计，具有一定合理性。

这里的重点不是具体数字，而是方法论：

**API 定价本身可能泄露模型架构信息。**

比如：

* 长上下文提价点，反映 KV Cache 成本拐点；
* 输出/input 价差，反映 decode 与 prefill 的成本差；
* cache hit 折扣，反映不同存储层级的成本差异；
* 5 分钟缓存与 1 小时缓存，可能对应 SSD 和 HDD 等不同存储介质。

这个思路很有意思：
**公开价格表，其实是一张被包装过的模型成本曲线。**

---

六、GPT-5 被“过度训练”了多少？文章说大约 100 倍

这部分是全文最震撼，但也最需要谨慎看待的内容。

Pope 的框架是：

一个模型的最优经济状态，应该让三类成本大致相等：

1. 预训练成本；
2. RL / 后训练成本；
3. 用户推理成本。

如果一个模型上线后会被大量用户反复调用，那么训练时多花一些成本是合理的，因为后续推理规模足够大，可以摊薄训练成本。

文章用一个估算：

* 假设前沿模型推理流量约 5000 万 token/秒；
* 模型生命周期约 2 个月；
* 那么总推理 token 约 200 万亿；
* 如果活跃参数约 1000 亿；
* 按 Chinchilla scaling law，理论最优训练 token 约 2 万亿；
* 实际前沿模型可能训练 150–200 万亿 token；
* 所以大约是 Chinchilla 最优值的 100 倍。

这个结论的真正含义是：

**Chinchilla 只是在“训练算力最优”框架下的结论，但今天前沿模型追求的是“训练 + 推理 + 商业化”的综合最优。**

所以大模型被大量“过训练”，不是浪费，而是为了降低推理成本、提升用户体验、延长模型商业生命周期。

这对 AI 投资的启发是：

**如果推理需求足够大，前期训练投入就会越来越合理。**

这也是为什么大厂敢继续堆训练、堆数据、堆 RL、堆推理基础设施。

---

七、流水线并行为什么没想象中有用？

文章讨论了 pipeline parallelism，也就是把模型不同层放在不同机架上串行执行。

直觉上看，这可以把模型拆开，降低单个机架的内存压力。

但 Pope 认为，在推理场景里，流水线并行价值有限。

原因是：

**流水线可以分摊模型权重，但不能有效分摊 KV Cache。**

推理时，为了填满流水线，需要更多在途 batch。
流水线级数增加，会让全局 batch 变大。
最后每个 GPU 的 KV Cache 压力并没有真正下降。

所以流水线并行只解决了一部分内存容量问题，但解决不了核心的 KV Cache 问题。

这也是为什么前沿推理系统更倾向于：

* 尽可能用满一个 scale-up 域；
* 使用专家并行；
* 少量使用流水线；
* 尽量避免跨机架 all-to-all 通信。

这再次说明：

**更大的 scale-up 域，比简单堆更多机架更重要。**

---

八、Google TPU 为什么可能有优势？

文章提到一个非常值得关注的推断：

**Google 的 TPU 系统长期拥有更大的 scale-up 域，因此更适合大规模 MoE 和 all-to-all 通信。**

如果这个判断成立，那么 Gemini 在某些模型架构上可能天然有系统优势。

这个优势不是单个芯片算力，而是：

* 更大的互联域；
* 更高效的全局通信；
* 更适合高稀疏度 MoE；
* 更适合超长上下文和高吞吐推理。

这也是为什么不能只用“GPU 数量”来判断 AI 能力。
真正要看的是：

**芯片 + 内存 + 网络 + 编译器 + 调度 + 模型架构的整体系统能力。**

Google 的优势可能就在系统协同。

---

九、对 AI 基建投资的启发

这篇文章对投资的启发非常直接。

## 1. AI 基建不是简单买 GPU

未来 AI 基建的瓶颈越来越系统化：

* GPU / ASIC；
* HBM；
* Scale-up 网络；
* Scale-out 网络；
* 光模块；
* CPO；
* OCS；
* SSD / HDD 存储；
* KV Cache 管理；
* 推理调度系统。

模型越强，推理需求越大，瓶颈越会从“训练算力”扩散到整个数据中心系统。

## 2. 光互联的重要性会持续上升

MoE、长上下文、agentic workflow 都会增加通信和内存压力。

尤其是 MoE 的专家并行，需要大量 all-to-all 通信。
跨机架通信慢 8 倍这个问题，本质上就是互联瓶颈。

所以未来光通信不只是 scale-out 网络受益，scale-up 和 scale-across 的价值也会越来越大。

这对光模块、硅光、CPO、LPO/XPO、OCS 都是长期逻辑支撑。

## 3. HBM 和存储都会变得更重要

文章强调 KV Cache 是推理阶段的核心成本之一。

KV Cache 需要内存，也需要存储。
长上下文、agent、多轮对话、代码任务都会放大 KV Cache 压力。

所以 AI 推理时代不仅需要 HBM，也可能重新抬高 SSD 甚至 HDD 在数据中心里的战略价值。

这和你之前关注的 SSD、闪迪、西数、Kioxia、HBM、HBF 等逻辑是连起来的。

## 4. 推理经济性是 AI 商业模式能否跑通的关键

如果批处理、缓存、MoE、长上下文优化做得好，推理成本会大幅下降。
如果推理成本下降，AI 应用的毛利率就能改善。
如果毛利率改善，AI 商业模式就会进入正循环。

所以 AI 投资不能只看“模型能力提升”，还要看：

**单位 token 成本是否持续下降。**

这才是 AI 商业化的底层曲线。

---

十、我认为这篇内容最值得记住的 5 句话

1. **模型架构不是拍脑袋设计的，而是被硬件成本函数塑造出来的。**

2. **MoE 的规模上限，很大程度取决于 scale-up 域，而不是单纯 GPU 数量。**

3. **推理成本的核心是批处理、KV Cache 和内存带宽，不只是 FLOPS。**

4. **API 定价本身可能泄露模型架构和成本结构。**

5. **AI 下一阶段的胜负手，是系统工程：芯片、内存、互联、调度、模型架构必须一起优化。**

---

十一、需要保持怀疑的地方

这篇文章很有启发，但不能全部当成事实。

几个点需要谨慎：

第一，GPT-5 的训练 token 数、活跃参数量、推理流量都是估算，并非官方披露。

第二，Gemini 定价反推架构的方法很聪明，但价格不一定完全等于成本。厂商也会考虑竞争、利润、补贴、产品策略。

第三，MoE 是否严格被单个机架限制，还取决于具体网络拓扑、调度策略、专家放置策略和通信优化。

第四，HDD 用于 1 小时 prompt cache 的判断很有意思，但也属于推断，不能直接当成已证实结论。

第五，文章对“流水线并行价值有限”的判断偏推理场景，在训练场景中 pipeline parallelism 仍然有其工程价值。

---

十二、最终总结

这篇内容的真正价值，不是告诉我们某个模型到底有多少参数，而是提供了一个理解 AI 基建的新框架：

**大模型的能力提升，不只是算法问题，而是数据中心系统工程问题。**

过去大家看 AI，容易只看模型榜单、参数规模、训练数据。
但真正深入之后会发现，决定 AI 能不能跑得快、跑得便宜、跑得久的，是一整套底层约束：

* 权重怎么读；
* KV Cache 怎么放；
* token 怎么批处理；
* 专家怎么通信；
* GPU 怎么互联；
* 机架之间怎么传输；
* 长上下文怎么定价；
* 推理流量怎么摊薄训练成本。

所以 AI 进入推理时代后，真正重要的不是一句“算力过剩”或者“模型降价”，而是：

**整个 AI 工厂的单位 token 成本，能不能继续下降。**

只要 token 成本持续下降、模型能力持续上升、应用调用量持续扩大，AI 的商业正循环就还没有结束。

发布于新加坡