AI推理产业链受益顺序

混沌20000

26-05-30 16:33

AI从训练时代走向推理时代后，产业链受益顺序正在发生变化：存储＞CPU＞GPU，而软件工程能力的重要性甚至开始接近硬件本身。

过去市场习惯把AI等同于GPU，但随着Agent、长上下文、长期记忆、多模态等能力成为标配，未来AI竞争的核心正在从“算力规模”转向“推理效率”和“Token成本”。

一、后训练正在取代预训练，推理需求反向定义模型
预训练只是搭建一个通用知识框架，真正决定推理效果的越来越是后训练、强化学习和微调。

过去是：
先训练模型，再考虑怎么推理。

未来是：
先想清楚推理场景需要什么能力，再反向优化训练过程。

比如：
长上下文需要提前训练KV Cache体系
长期记忆需要永久存储机制
首Token时间（TTFT）需要专项优化
Agent工具调用需要工程化适配
本质上，未来模型竞争已经从参数竞争变成工程竞争。
谁能把模型能力和工程能力结合得更好，谁才能把推理成本做下来。

二、AI推理未来四大确定方向
几个非常明确的趋势。

1、多模态成为标配
文本只是开始。

未来推理一定会向：
图片
视频
语音
机器人
全面扩展。
这意味着单次推理数据量呈指数增长。

2、长上下文成为标配
现在很多模型支持128K上下文。
未来可能达到：
1M Token
10M Token
甚至永久记忆。
上下文越长，需要缓存的数据越大。
存储需求同步爆发。

3、Agent成为最大增量
这是市场最容易忽视的地方。
专家举了一个例子：
一个Agent任务执行10秒。
其中：
模型思考只占1~2秒
调用工具占8秒
也就是说：
推理本身只占20%。
80%时间在调用：
地图
数据库
ERP
订单系统
搜索系统
这些全部运行在CPU上。

这意味着：
Agent时代最大的受益者未必是GPU。
CPU需求会明显提升。

4、推理成本持续下降
未来竞争核心是：
每百万Token成本。
专家举例：
如果H20生成100万Token成本是1.5元，
自研ASIC能够做到0.5元。
成本下降66%。
云厂商一定会投入自研芯片。

三、AI推理时代最大的赢家是谁？
市场一直在讨论GPU和ASIC谁赢。

第一受益：存储
因为长上下文和长期记忆。
KV Cache爆发。
大量数据需要保存。
未来：
HBM → DRAM → SSD
将形成三级存储体系。

很多Agent任务甚至不需要重新计算。
直接从SSD读取历史KV Cache即可。
这意味着：
SSD开始从传统冷存储变成AI推理的重要组成部分。

第二受益：CPU
过去训练时代CPU存在感不强。
推理时代情况不同。
Agent需要：
调度工具
网络请求
数据库访问
API调用
这些全靠CPU完成。
专家甚至指出：
未来推理服务器更需要：
64核CPU
128核CPU
3GHz以上主频
32核CPU已经开始显得不足。

第三受益：GPU
GPU仍然是核心。
但逻辑变了。

以前：
GPU决定一切。

未来：
GPU是推理系统中的一个组成部分。

还需要：
CPU
DRAM
SSD
推理引擎
调度系统
协同工作。

四、为什么云厂商一定会自研ASIC？
这里面最大的逻辑是TCO。
也就是总拥有成本。
如果：
H20成本1.5元/百万Token
自研ASIC成本0.5元/百万Token
那么每生成100亿Token：
H20成本：
15000元
ASIC成本：
5000元
直接节省10000元。

对每天产生数十亿甚至上百亿Token的大模型平台来说，这个差距是天文数字。

所以未来：
GPU负责高端推理
ASIC负责规模推理
会长期共存。
而不是谁取代谁。

五、AI推理最大的瓶颈已经不是算力，而是带宽
这是全文最容易被忽略，但含金量最高的观点。
目前大模型MFU（算力利用率）普遍偏低。
原因不是GPU不够。
而是显存带宽不够。

本质上：
GPU像工厂。
显存像运输系统。
如果原材料送不过来。
工厂只能停工等待。
所以未来竞争重点变成：
硬件侧
HBM带宽
GPU互联
IB网络
软件侧
KV Cache量化
稀疏化
动态批处理
显存管理
智能调度
专家甚至认为：
这些工程优化能力将决定推理平台最终能否盈利。

六、市场对超级节点可能高估了
市场现在很热衷讨论：
128卡超级节点。
万卡集群。
千卡集群。

但专家给出的数据很有意思。
当前推理需求中：
约70%属于中低精度推理
8卡或16卡服务器即可满足
只有：
20%-30%不到
需要千卡级集群。
对应模型规模：
500亿参数
1000亿参数
3000亿参数
甚至更高。

换句话说。
未来绝大部分商业化推理需求，并不需要万卡集群。
真正增长最快的，反而是中小规模推理服务器。

总结
AI投资逻辑正在从“训练算力扩张”转向“推理效率优化”，产业链重心正在从GPU单点受益，演变成GPU+CPU+存储+软件调度系统共同受益。

过去市场关注的是：
训练需要多少卡。
未来市场关注的是：
每百万Token成本是多少。
谁能把Token成本降下来，谁就能获得最大的市场份额。

从这个角度看，长上下文、Agent、长期记忆三条主线正在同时利好：
HBM和DRAM需求持续增长；
SSD开始进入AI核心存储层；
高核心数CPU需求快速提升；
ASIC渗透率不断提高；
推理软件和调度平台价值重估。

而这背后最确定的一条产业趋势其实是：
AI时代正在从“算力军备竞赛”，逐步走向“效率军备竞赛”。

发布于福建