CPU不再是配角_新浪新闻

#模型时代# 为什么Agentic AI之后，CPU不再是配角？

记录一下最近一期原点Talk的笔记。我和趋境科技首席引擎架构师谢威宇、英特尔中国首席工程师许渊做了一个对谈。主题是：AI从训练走到推理再走到智能体，CPU为什么又变重要了。

先说主要结论：
一是MoE模型的出现，给了CPU第一个发挥更大作用的角色。稀疏激活的专家层天然适合CPU的内存带宽优势，英特尔AMX指令集让这个适配从理论变成了工程现实。趋境科技的KTransformers实现了用一张消费级GPU加至强CPU跑DeepSeek-R1 671B（R1发布不久之后）。

二是KVCache的复用经济学在智能体时代被放大了。编程Agent场景下KVCache命中率可达80-90%，每提升一个百分点带来的收益都在加速。管理这些缓存需要大量CPU资源，这催生了Mooncake这类分布式KVCache系统。

三是CPU的需求不再跟GPU的数量走，而是跟GPU产出的智能总量走。智能越多，需要执行的动作（搜索、浏览网页，工具使用等）越多，CPU的需求就越大。头部模型厂商的数据中心架构已经从"两颗CPU配八块GPU"变成了"一台GPU节点配两台纯CPU节点"。

1、用CPU跑大模型推理，当年是一个彻底的非共识。

谢威宇在清华读博时就研究CPU性能优化，起点是在英特尔的机器上做实验。最早的思路叫AF分离，想把稠密模型里的FFN（前馈网络）卸载到CPU上算。但稠密模型时代，每个token要激活全部参数，计算密度太高，CPU吃不动。效果不好，停留在学术探索阶段。

2、DeepSeek的MoE模型改变了物理规则。

稠密模型像一家公司，任务来了全员出动，每个人都要干活。MoE模型把公司分了部门，一个任务只派相关的几个部门上，其他部门待命。对应到计算上：MoE的FFN层从Dense变成稀疏激活，一个token只调动一小部分专家参数。计算量下降了，但模型总参数量没降，对内存容量和带宽的需求反而上升了。

这个特征刚好和CPU的能力曲线匹配。CPU的算力不如GPU，但内存容量大、带宽成本低。稀疏计算放在CPU上，性价比比放在GPU上高。

3、KTransformers做的就是这件事：把模型拆成两半。

MoE的专家层交给CPU算，Attention层留在GPU。这样GPU的显存消耗大幅减少，一张卡、两张卡就能跑DeepSeek整个671B参数的模型。KTransformers定位是工作站推理，面向单人使用或数据隐私要求高的边端场景。

4、英特尔的AMX指令集是让这条路走通的硬件拼图。

AMX（Advanced Matrix Extensions）是英特尔为矩阵运算设计的指令集，把过去需要多步完成的矩阵操作合并成单条指令执行。谢威宇回忆，第一次在至强8553上看到跑分结果时的反应是"没想到AMX在这件事上真的能做到，而且恰好fit进去"。当时的配置：至强8553 CPU，总内存带宽约400GB/s，跑DeepSeek-R1，Prefill速度最快到500多tokens/sec，Decode到20多tokens/sec。在当时的对话场景下已经够用。

5、许渊说，英特尔内部看到KTransformers的消息时"非常兴奋"。

用他的话说，"江湖上突然有一个传闻，有人把这个架构的成本极致压缩"。英特尔这边立刻联系了谢威宇团队。从硬件厂商的视角看，这是CPU在AI推理场景里的一次价值证明。

6、Mooncake解决的是另一半问题：云端大集群的KVCache管理。

KTransformers是工作站级的推理技术，Mooncake是云端的。Mooncake最早和月之暗面（Kimi的母公司Moonshot AI）一起做的，名字就是从Moonshot来的。它本质上是一个分布式KVCache数据库。

KVCache是推理过程中的缓存。多轮对话时，已经算过的历史上下文不用重新计算，直接从缓存读取。对人来说，你默认和别人说话对方会记得之前聊过什么，但对AI来说，"记住"是需要单独存储和管理的。Mooncake的设计思路是尽可能把所有东西都缓存起来，缓存越多、重复计算越少、收益越大。

7、KVCache如果一直占着GPU显存就浪费了，所以额外存到CPU服务器上。

这就是CPU在云端推理里的新角色：不直接跑模型，而是做KVCache的存储和管理节点。需要大量的CPU资源来做调度，同时需要高IO、高PCIe通道数来挂SSD。

8、KTransformers现在是多个头部开源模型的推荐推理框架。

GLM-5.1发布、Kimi K2.6发布、千问等开源模型上线后，趋境科技都做Day0适配。这些模型的model card首页会直接推荐KTransformers作为推理方案。从非共识到被写进官方推荐页，这条路走了几年。

9、智能体时代让KVCache的经济学被放大了。

以编程Agent为例。用AI写代码时，上下文窗口反复从0K用到200K，compact后又从20K用到200K，循环往复。每次用户输入很短，可能就一句指令，但历史上下文很长。这意味着KVCache命中率天然就高，可以到80%甚至90%以上。

命中率80%，意味着只需为20%的内容付出计算代价，缓存提供的是4:1的杠杆。到90%就是9:1。到95%更高。每提升一个百分点，收益增长速度本身在加快。这就是趋境在Mooncake方向投入多的原因。

10、Token Factory。

从token的角度把AI基础设施分成供给侧和需求侧。供给侧围绕token的生产展开，不只是推理本身，还包括训练验证、数据检索、工具调用、缓存管理等一整套环节。他的比喻是：GPU是皇冠上的明珠，但皇冠本身的作用越来越大。

11、Agentic AI对CPU的需求来自好几个方向，而且每个方向都是增量。

训练阶段，新一代服务Agent的模型在训练时需要CPU来做验证环境。过去训练文本模型，打个分、判断个对错就行。现在训练Agent模型，生成的代码要编译运行，操作要在环境里执行，这些验证全跑在CPU上。

推理阶段，AI应用已经在做搜索引擎过去做的事：RAG检索、数据索引、结果排序，全部消耗CPU。

执行阶段，Agent调用工具、操作数据库、读写文件，执行环境就是CPU。

12、半导体涨价让"用好现有资产"变成了现实压力。

内存和SSD"现货没有，期货也没有"，价格涨得凶。在这个背景下，怎么把手里已有的CPU和存储资源榨出更多价值，对企业来说不是技术选择。异构计算和KVCache offload可能恰好回答了这个问题。

13、海外AI数据中心的卫星图已经能看出变化。

许渊透露，一家头部模型厂商的新架构是：一台GPU节点（两颗CPU加八块GPU）配两台纯CPU通算节点。过去是GPU独占数据中心，现在CPU回来了，而且以独立集群的方式回来。

14、谢威宇对CPU未来占比的判断比行业共识更激进。

他认为CPU与GPU的配比不仅会到1:1，很可能超过1:1。逻辑是：CPU的需求不是和GPU的数量比，是和GPU算力所产出的token总量比。GPU越强、产出的智能越多，这些智能需要执行的动作就越多，对应的CPU需求就越大。GPU算力提升不是CPU的替代，是CPU的需求放大器。 http://t.cn/AXawHCEE

发布于新加坡