#模型时代# 为什么Agentic AI之后,CPU不再是配角?
记录一下最近一期原点Talk的笔记。我和趋境科技首席引擎架构师谢威宇、英特尔中国首席工程师许渊做了一个对谈。主题是:AI从训练走到推理再走到智能体,CPU为什么又变重要了。
先说主要结论:
一是MoE模型的出现,给了CPU第一个发挥更大作用的角色。稀疏激活的专家层天然适合CPU的内存带宽优势,英特尔AMX指令集让这个适配从理论变成了工程现实。趋境科技的KTransformers实现了用一张消费级GPU加至强CPU跑DeepSeek-R1 671B(R1发布不久之后)。
二是KVCache的复用经济学在智能体时代被放大了。编程Agent场景下KVCache命中率可达80-90%,每提升一个百分点带来的收益都在加速。管理这些缓存需要大量CPU资源,这催生了Mooncake这类分布式KVCache系统。
三是CPU的需求不再跟GPU的数量走,而是跟GPU产出的智能总量走。智能越多,需要执行的动作(搜索、浏览网页,工具使用等)越多,CPU的需求就越大。头部模型厂商的数据中心架构已经从"两颗CPU配八块GPU"变成了"一台GPU节点配两台纯CPU节点"。
1、用CPU跑大模型推理,当年是一个彻底的非共识。
谢威宇在清华读博时就研究CPU性能优化,起点是在英特尔的机器上做实验。最早的思路叫AF分离,想把稠密模型里的FFN(前馈网络)卸载到CPU上算。但稠密模型时代,每个token要激活全部参数,计算密度太高,CPU吃不动。效果不好,停留在学术探索阶段。
2、DeepSeek的MoE模型改变了物理规则。
稠密模型像一家公司,任务来了全员出动,每个人都要干活。MoE模型把公司分了部门,一个任务只派相关的几个部门上,其他部门待命。对应到计算上:MoE的FFN层从Dense变成稀疏激活,一个token只调动一小部分专家参数。计算量下降了,但模型总参数量没降,对内存容量和带宽的需求反而上升了。
这个特征刚好和CPU的能力曲线匹配。CPU的算力不如GPU,但内存容量大、带宽成本低。稀疏计算放在CPU上,性价比比放在GPU上高。
3、KTransformers做的就是这件事:把模型拆成两半。
MoE的专家层交给CPU算,Attention层留在GPU。这样GPU的显存消耗大幅减少,一张卡、两张卡就能跑DeepSeek整个671B参数的模型。KTransformers定位是工作站推理,面向单人使用或数据隐私要求高的边端场景。
4、英特尔的AMX指令集是让这条路走通的硬件拼图。
AMX(Advanced Matrix Extensions)是英特尔为矩阵运算设计的指令集,把过去需要多步完成的矩阵操作合并成单条指令执行。谢威宇回忆,第一次在至强8553上看到跑分结果时的反应是"没想到AMX在这件事上真的能做到,而且恰好fit进去"。当时的配置:至强8553 CPU,总内存带宽约400GB/s,跑DeepSeek-R1,Prefill速度最快到500多tokens/sec,Decode到20多tokens/sec。在当时的对话场景下已经够用。
5、许渊说,英特尔内部看到KTransformers的消息时"非常兴奋"。
用他的话说,"江湖上突然有一个传闻,有人把这个架构的成本极致压缩"。英特尔这边立刻联系了谢威宇团队。从硬件厂商的视角看,这是CPU在AI推理场景里的一次价值证明。
6、Mooncake解决的是另一半问题:云端大集群的KVCache管理。
KTransformers是工作站级的推理技术,Mooncake是云端的。Mooncake最早和月之暗面(Kimi的母公司Moonshot AI)一起做的,名字就是从Moonshot来的。它本质上是一个分布式KVCache数据库。
KVCache是推理过程中的缓存。多轮对话时,已经算过的历史上下文不用重新计算,直接从缓存读取。对人来说,你默认和别人说话对方会记得之前聊过什么,但对AI来说,"记住"是需要单独存储和管理的。Mooncake的设计思路是尽可能把所有东西都缓存起来,缓存越多、重复计算越少、收益越大。
7、KVCache如果一直占着GPU显存就浪费了,所以额外存到CPU服务器上。
这就是CPU在云端推理里的新角色:不直接跑模型,而是做KVCache的存储和管理节点。需要大量的CPU资源来做调度,同时需要高IO、高PCIe通道数来挂SSD。
8、KTransformers现在是多个头部开源模型的推荐推理框架。
GLM-5.1发布、Kimi K2.6发布、千问等开源模型上线后,趋境科技都做Day0适配。这些模型的model card首页会直接推荐KTransformers作为推理方案。从非共识到被写进官方推荐页,这条路走了几年。
9、智能体时代让KVCache的经济学被放大了。
以编程Agent为例。用AI写代码时,上下文窗口反复从0K用到200K,compact后又从20K用到200K,循环往复。每次用户输入很短,可能就一句指令,但历史上下文很长。这意味着KVCache命中率天然就高,可以到80%甚至90%以上。
命中率80%,意味着只需为20%的内容付出计算代价,缓存提供的是4:1的杠杆。到90%就是9:1。到95%更高。每提升一个百分点,收益增长速度本身在加快。这就是趋境在Mooncake方向投入多的原因。
10、Token Factory。
从token的角度把AI基础设施分成供给侧和需求侧。供给侧围绕token的生产展开,不只是推理本身,还包括训练验证、数据检索、工具调用、缓存管理等一整套环节。他的比喻是:GPU是皇冠上的明珠,但皇冠本身的作用越来越大。
11、Agentic AI对CPU的需求来自好几个方向,而且每个方向都是增量。
训练阶段,新一代服务Agent的模型在训练时需要CPU来做验证环境。过去训练文本模型,打个分、判断个对错就行。现在训练Agent模型,生成的代码要编译运行,操作要在环境里执行,这些验证全跑在CPU上。
推理阶段,AI应用已经在做搜索引擎过去做的事:RAG检索、数据索引、结果排序,全部消耗CPU。
执行阶段,Agent调用工具、操作数据库、读写文件,执行环境就是CPU。
12、半导体涨价让"用好现有资产"变成了现实压力。
内存和SSD"现货没有,期货也没有",价格涨得凶。在这个背景下,怎么把手里已有的CPU和存储资源榨出更多价值,对企业来说不是技术选择。异构计算和KVCache offload可能恰好回答了这个问题。
13、海外AI数据中心的卫星图已经能看出变化。
许渊透露,一家头部模型厂商的新架构是:一台GPU节点(两颗CPU加八块GPU)配两台纯CPU通算节点。过去是GPU独占数据中心,现在CPU回来了,而且以独立集群的方式回来。
14、谢威宇对CPU未来占比的判断比行业共识更激进。
他认为CPU与GPU的配比不仅会到1:1,很可能超过1:1。逻辑是:CPU的需求不是和GPU的数量比,是和GPU算力所产出的token总量比。GPU越强、产出的智能越多,这些智能需要执行的动作就越多,对应的CPU需求就越大。GPU算力提升不是CPU的替代,是CPU的需求放大器。 http://t.cn/AXawHCEE
发布于 新加坡
