大模型的训练、推理、定价和架构,不是玄学,而是被硬件带宽、内存、批处理、MoE 通信拓扑共同“算”出来的。
请注意,数字是 Reiner Pope 基于公开定价、硬件参数和工程经验做的**反推/估算**,不是 OpenAI、Anthropic、Google 官方披露的内部数据。
一、最核心结论
这篇文章可以浓缩成一句话:
**今天的大模型不是单纯由算法决定,而是被 GPU 机架、内存带宽、KV Cache、批处理规模、MoE 通信模式共同塑造出来的。**
所以,为什么模型要做 MoE?
为什么推理要批处理?
为什么输出 token 比输入 token 贵?
为什么长上下文更贵?
为什么 Google TPU 可能有结构性优势?
为什么 Blackwell NVL72、Rubin、scale-up 网络这么重要?
背后都指向同一个底层逻辑:
**AI 的瓶颈正在从“单卡算力”转向“系统级互联 + 内存带宽 + 推理经济性”。**
---
二、GPU 机架决定 MoE 模型能做多大
文章最重要的硬件视角是:**MoE 模型天然依赖机架内高速互联。**
以 DeepSeek V3 为例,文中称它有 256 个专家,每次推理只激活一部分专家。MoE 的部署方式通常是“专家并行”:不同专家放在不同 GPU 上,token 会被路由到不同专家所在的 GPU。
这就产生一个问题:
**任意 GPU 都可能和任意 GPU 通信。**
所以它需要非常强的 all-to-all 通信能力。
NVIDIA Blackwell NVL72 的优势就在这里:一个机架里有 72 块 GPU,通过 NVLink / NVSwitch 做高速互联,机架内部通信很快。
但一旦跨出这个机架,进入 scale-out 网络,带宽就显著下降。文章里给出的说法是:**跨机架通信速度大约慢 8 倍。**
这意味着:
**一个机架的 scale-up 域,实际上限制了 MoE 专家层的规模上限。**
这也解释了为什么行业特别重视:
* NVL72
* Rubin 更大的 scale-up domain
* TPU Pod
* UALink
* Scale-up Ethernet
* CPO / 光互联 / OCS 等新型互联方案
因为未来大模型不是“单卡跑得快”就够了,而是要让更多 GPU 像一个超大芯片一样协同工作。
---
三、推理成本的秘密:batch size 可以省 1000 倍
文章最有价值的一个点,是解释了大模型推理为什么一定要做批处理。
模型每生成一个 token,都要读取模型权重。这个权重读取成本是固定的。
如果只服务 1 个用户,这个固定成本就由 1 个用户承担。
如果同时服务 2000 个用户,这个固定成本就被 2000 个请求摊薄。
所以批处理越大,单 token 成本越低。
文中给出的极端估算是:
**如果不做批处理,推理成本可能高出 1000 倍。**
这解释了为什么 Claude、Codex、Cursor 等产品会有“快速模式”和“普通模式”。
快速模式并不是简单地“算力更贵”,而是因为它可能牺牲了批处理效率,用更低延迟换更高成本。
但文章也指出,所谓“慢速模式”并不能无限便宜。
原因是:
**KV Cache 是每个用户独立的,无法像模型权重一样在不同用户之间摊销。**
所以让用户多等一会儿,最多能改善调度效率,但不能突破 KV Cache 和计算本身带来的成本下限。
---
四、为什么输出 token 比输入 token 贵很多?
文章解释了一个非常关键的 API 定价现象:
**大多数模型的输出 token 通常比输入 token 贵 3–5 倍。**
原因是 prefill 和 decode 的计算形态完全不同。
输入 token 阶段,也就是 prefill,可以一次性并行处理大量 token。这个阶段更接近计算受限,GPU 利用率相对更高。
输出 token 阶段,也就是 decode,每次只能生成一个 token。每生成一个 token,都要读取模型权重和历史 KV Cache。
所以 decode 更受内存带宽限制。
换句话说:
**输入 token 是批量处理,输出 token 是逐字吐出来。**
这就是为什么输出更贵。
对投资研究来说,这个点非常重要。因为它说明:
**推理成本的核心瓶颈不是单纯 FLOPS,而是内存带宽、KV Cache、互联和调度效率。**
这也解释了为什么 HBM、先进封装、scale-up 网络、光互联的重要性越来越高。
---
五、长上下文为什么更贵?
文章用 Gemini 的 API 定价举例:超过 20 万 token 后价格上涨 50%。
Pope 的推断是:
**20 万 token 附近可能是模型从计算瓶颈切换到内存带宽瓶颈的临界点。**
上下文越长,KV Cache 越大。
KV Cache 越大,每次 decode 要读取的历史信息越多。
最终内存带宽压力会超过计算压力。
所以长上下文不是单纯“多放点文本”这么简单,而是会显著增加推理成本。
文章进一步根据定价反推出,每个 token 的 KV Cache 大约是 2KB 左右。这个数字对应某些公开论文中提到的 KV head 设计,具有一定合理性。
这里的重点不是具体数字,而是方法论:
**API 定价本身可能泄露模型架构信息。**
比如:
* 长上下文提价点,反映 KV Cache 成本拐点;
* 输出/input 价差,反映 decode 与 prefill 的成本差;
* cache hit 折扣,反映不同存储层级的成本差异;
* 5 分钟缓存与 1 小时缓存,可能对应 SSD 和 HDD 等不同存储介质。
这个思路很有意思:
**公开价格表,其实是一张被包装过的模型成本曲线。**
---
六、GPT-5 被“过度训练”了多少?文章说大约 100 倍
这部分是全文最震撼,但也最需要谨慎看待的内容。
Pope 的框架是:
一个模型的最优经济状态,应该让三类成本大致相等:
1. 预训练成本;
2. RL / 后训练成本;
3. 用户推理成本。
如果一个模型上线后会被大量用户反复调用,那么训练时多花一些成本是合理的,因为后续推理规模足够大,可以摊薄训练成本。
文章用一个估算:
* 假设前沿模型推理流量约 5000 万 token/秒;
* 模型生命周期约 2 个月;
* 那么总推理 token 约 200 万亿;
* 如果活跃参数约 1000 亿;
* 按 Chinchilla scaling law,理论最优训练 token 约 2 万亿;
* 实际前沿模型可能训练 150–200 万亿 token;
* 所以大约是 Chinchilla 最优值的 100 倍。
这个结论的真正含义是:
**Chinchilla 只是在“训练算力最优”框架下的结论,但今天前沿模型追求的是“训练 + 推理 + 商业化”的综合最优。**
所以大模型被大量“过训练”,不是浪费,而是为了降低推理成本、提升用户体验、延长模型商业生命周期。
这对 AI 投资的启发是:
**如果推理需求足够大,前期训练投入就会越来越合理。**
这也是为什么大厂敢继续堆训练、堆数据、堆 RL、堆推理基础设施。
---
七、流水线并行为什么没想象中有用?
文章讨论了 pipeline parallelism,也就是把模型不同层放在不同机架上串行执行。
直觉上看,这可以把模型拆开,降低单个机架的内存压力。
但 Pope 认为,在推理场景里,流水线并行价值有限。
原因是:
**流水线可以分摊模型权重,但不能有效分摊 KV Cache。**
推理时,为了填满流水线,需要更多在途 batch。
流水线级数增加,会让全局 batch 变大。
最后每个 GPU 的 KV Cache 压力并没有真正下降。
所以流水线并行只解决了一部分内存容量问题,但解决不了核心的 KV Cache 问题。
这也是为什么前沿推理系统更倾向于:
* 尽可能用满一个 scale-up 域;
* 使用专家并行;
* 少量使用流水线;
* 尽量避免跨机架 all-to-all 通信。
这再次说明:
**更大的 scale-up 域,比简单堆更多机架更重要。**
---
八、Google TPU 为什么可能有优势?
文章提到一个非常值得关注的推断:
**Google 的 TPU 系统长期拥有更大的 scale-up 域,因此更适合大规模 MoE 和 all-to-all 通信。**
如果这个判断成立,那么 Gemini 在某些模型架构上可能天然有系统优势。
这个优势不是单个芯片算力,而是:
* 更大的互联域;
* 更高效的全局通信;
* 更适合高稀疏度 MoE;
* 更适合超长上下文和高吞吐推理。
这也是为什么不能只用“GPU 数量”来判断 AI 能力。
真正要看的是:
**芯片 + 内存 + 网络 + 编译器 + 调度 + 模型架构的整体系统能力。**
Google 的优势可能就在系统协同。
---
九、对 AI 基建投资的启发
这篇文章对投资的启发非常直接。
## 1. AI 基建不是简单买 GPU
未来 AI 基建的瓶颈越来越系统化:
* GPU / ASIC;
* HBM;
* Scale-up 网络;
* Scale-out 网络;
* 光模块;
* CPO;
* OCS;
* SSD / HDD 存储;
* KV Cache 管理;
* 推理调度系统。
模型越强,推理需求越大,瓶颈越会从“训练算力”扩散到整个数据中心系统。
## 2. 光互联的重要性会持续上升
MoE、长上下文、agentic workflow 都会增加通信和内存压力。
尤其是 MoE 的专家并行,需要大量 all-to-all 通信。
跨机架通信慢 8 倍这个问题,本质上就是互联瓶颈。
所以未来光通信不只是 scale-out 网络受益,scale-up 和 scale-across 的价值也会越来越大。
这对光模块、硅光、CPO、LPO/XPO、OCS 都是长期逻辑支撑。
## 3. HBM 和存储都会变得更重要
文章强调 KV Cache 是推理阶段的核心成本之一。
KV Cache 需要内存,也需要存储。
长上下文、agent、多轮对话、代码任务都会放大 KV Cache 压力。
所以 AI 推理时代不仅需要 HBM,也可能重新抬高 SSD 甚至 HDD 在数据中心里的战略价值。
这和你之前关注的 SSD、闪迪、西数、Kioxia、HBM、HBF 等逻辑是连起来的。
## 4. 推理经济性是 AI 商业模式能否跑通的关键
如果批处理、缓存、MoE、长上下文优化做得好,推理成本会大幅下降。
如果推理成本下降,AI 应用的毛利率就能改善。
如果毛利率改善,AI 商业模式就会进入正循环。
所以 AI 投资不能只看“模型能力提升”,还要看:
**单位 token 成本是否持续下降。**
这才是 AI 商业化的底层曲线。
---
十、我认为这篇内容最值得记住的 5 句话
1. **模型架构不是拍脑袋设计的,而是被硬件成本函数塑造出来的。**
2. **MoE 的规模上限,很大程度取决于 scale-up 域,而不是单纯 GPU 数量。**
3. **推理成本的核心是批处理、KV Cache 和内存带宽,不只是 FLOPS。**
4. **API 定价本身可能泄露模型架构和成本结构。**
5. **AI 下一阶段的胜负手,是系统工程:芯片、内存、互联、调度、模型架构必须一起优化。**
---
十一、需要保持怀疑的地方
这篇文章很有启发,但不能全部当成事实。
几个点需要谨慎:
第一,GPT-5 的训练 token 数、活跃参数量、推理流量都是估算,并非官方披露。
第二,Gemini 定价反推架构的方法很聪明,但价格不一定完全等于成本。厂商也会考虑竞争、利润、补贴、产品策略。
第三,MoE 是否严格被单个机架限制,还取决于具体网络拓扑、调度策略、专家放置策略和通信优化。
第四,HDD 用于 1 小时 prompt cache 的判断很有意思,但也属于推断,不能直接当成已证实结论。
第五,文章对“流水线并行价值有限”的判断偏推理场景,在训练场景中 pipeline parallelism 仍然有其工程价值。
---
十二、最终总结
这篇内容的真正价值,不是告诉我们某个模型到底有多少参数,而是提供了一个理解 AI 基建的新框架:
**大模型的能力提升,不只是算法问题,而是数据中心系统工程问题。**
过去大家看 AI,容易只看模型榜单、参数规模、训练数据。
但真正深入之后会发现,决定 AI 能不能跑得快、跑得便宜、跑得久的,是一整套底层约束:
* 权重怎么读;
* KV Cache 怎么放;
* token 怎么批处理;
* 专家怎么通信;
* GPU 怎么互联;
* 机架之间怎么传输;
* 长上下文怎么定价;
* 推理流量怎么摊薄训练成本。
所以 AI 进入推理时代后,真正重要的不是一句“算力过剩”或者“模型降价”,而是:
**整个 AI 工厂的单位 token 成本,能不能继续下降。**
只要 token 成本持续下降、模型能力持续上升、应用调用量持续扩大,AI 的商业正循环就还没有结束。
发布于 新加坡
