混沌20000
26-05-30 16:33

AI从训练时代走向推理时代后,产业链受益顺序正在发生变化:存储>CPU>GPU,而软件工程能力的重要性甚至开始接近硬件本身。

过去市场习惯把AI等同于GPU,但随着Agent、长上下文、长期记忆、多模态等能力成为标配,未来AI竞争的核心正在从“算力规模”转向“推理效率”和“Token成本”。

一、后训练正在取代预训练,推理需求反向定义模型
预训练只是搭建一个通用知识框架,真正决定推理效果的越来越是后训练、强化学习和微调。

过去是:
先训练模型,再考虑怎么推理。

未来是:
先想清楚推理场景需要什么能力,再反向优化训练过程。

比如:
长上下文需要提前训练KV Cache体系
长期记忆需要永久存储机制
首Token时间(TTFT)需要专项优化
Agent工具调用需要工程化适配
本质上,未来模型竞争已经从参数竞争变成工程竞争。
谁能把模型能力和工程能力结合得更好,谁才能把推理成本做下来。

二、AI推理未来四大确定方向
几个非常明确的趋势。

1、多模态成为标配
文本只是开始。

未来推理一定会向:
图片
视频
语音
机器人
全面扩展。
这意味着单次推理数据量呈指数增长。

2、长上下文成为标配
现在很多模型支持128K上下文。
未来可能达到:
1M Token
10M Token
甚至永久记忆。
上下文越长,需要缓存的数据越大。
存储需求同步爆发。

3、Agent成为最大增量
这是市场最容易忽视的地方。
专家举了一个例子:
一个Agent任务执行10秒。
其中:
模型思考只占1~2秒
调用工具占8秒
也就是说:
推理本身只占20%。
80%时间在调用:
地图
数据库
ERP
订单系统
搜索系统
这些全部运行在CPU上。

这意味着:
Agent时代最大的受益者未必是GPU。
CPU需求会明显提升。

4、推理成本持续下降
未来竞争核心是:
每百万Token成本。
专家举例:
如果H20生成100万Token成本是1.5元,
自研ASIC能够做到0.5元。
成本下降66%。
云厂商一定会投入自研芯片。

三、AI推理时代最大的赢家是谁?
市场一直在讨论GPU和ASIC谁赢。

第一受益:存储
因为长上下文和长期记忆。
KV Cache爆发。
大量数据需要保存。
未来:
HBM → DRAM → SSD
将形成三级存储体系。

很多Agent任务甚至不需要重新计算。
直接从SSD读取历史KV Cache即可。
这意味着:
SSD开始从传统冷存储变成AI推理的重要组成部分。

第二受益:CPU
过去训练时代CPU存在感不强。
推理时代情况不同。
Agent需要:
调度工具
网络请求
数据库访问
API调用
这些全靠CPU完成。
专家甚至指出:
未来推理服务器更需要:
64核CPU
128核CPU
3GHz以上主频
32核CPU已经开始显得不足。

第三受益:GPU
GPU仍然是核心。
但逻辑变了。

以前:
GPU决定一切。

未来:
GPU是推理系统中的一个组成部分。

还需要:
CPU
DRAM
SSD
推理引擎
调度系统
协同工作。

四、为什么云厂商一定会自研ASIC?
这里面最大的逻辑是TCO。
也就是总拥有成本。
如果:
H20成本1.5元/百万Token
自研ASIC成本0.5元/百万Token
那么每生成100亿Token:
H20成本:
15000元
ASIC成本:
5000元
直接节省10000元。

对每天产生数十亿甚至上百亿Token的大模型平台来说,这个差距是天文数字。

所以未来:
GPU负责高端推理
ASIC负责规模推理
会长期共存。
而不是谁取代谁。

五、AI推理最大的瓶颈已经不是算力,而是带宽
这是全文最容易被忽略,但含金量最高的观点。
目前大模型MFU(算力利用率)普遍偏低。
原因不是GPU不够。
而是显存带宽不够。

本质上:
GPU像工厂。
显存像运输系统。
如果原材料送不过来。
工厂只能停工等待。
所以未来竞争重点变成:
硬件侧
HBM带宽
GPU互联
IB网络
软件侧
KV Cache量化
稀疏化
动态批处理
显存管理
智能调度
专家甚至认为:
这些工程优化能力将决定推理平台最终能否盈利。

六、市场对超级节点可能高估了
市场现在很热衷讨论:
128卡超级节点。
万卡集群。
千卡集群。

但专家给出的数据很有意思。
当前推理需求中:
约70%属于中低精度推理
8卡或16卡服务器即可满足
只有:
20%-30%不到
需要千卡级集群。
对应模型规模:
500亿参数
1000亿参数
3000亿参数
甚至更高。

换句话说。
未来绝大部分商业化推理需求,并不需要万卡集群。
真正增长最快的,反而是中小规模推理服务器。

总结
AI投资逻辑正在从“训练算力扩张”转向“推理效率优化”,产业链重心正在从GPU单点受益,演变成GPU+CPU+存储+软件调度系统共同受益。

过去市场关注的是:
训练需要多少卡。
未来市场关注的是:
每百万Token成本是多少。
谁能把Token成本降下来,谁就能获得最大的市场份额。

从这个角度看,长上下文、Agent、长期记忆三条主线正在同时利好:
HBM和DRAM需求持续增长;
SSD开始进入AI核心存储层;
高核心数CPU需求快速提升;
ASIC渗透率不断提高;
推理软件和调度平台价值重估。

而这背后最确定的一条产业趋势其实是:
AI时代正在从“算力军备竞赛”,逐步走向“效率军备竞赛”。

发布于 福建