算力分配模式面临调整

在传统的大语言模型训练与推理阶段，数据中心的算力分配呈现出“重GPU、轻CPU”的特征。由于AI模型需要大规模并行矩阵乘法，GPU凭借其高度并行的架构优势承担了核心计算任务，而CPU则主要负责压缩内存数据并将其路由至GPU。TrendForce的分析指出，在这一阶段，人工智能数据中心内CPU与GPU的配置比例通常在1:4至1:8之间。

然而，随着Agentic AI的兴起，这种算力分配模式面临挑战。与静态的LLM不同，智能体人工智能需要与环境进行动态交互，包括规划任务、调用外部工具、做出决策并代表用户执行操作。管理这些复杂流程的协调层——例如调度子任务、在不同子智能体之间传递数据，以及评估请求是否完成——完全依赖于CPU的串行逻辑处理能力。

半导体分析机构SemiAnalysis的首席分析师Dylan Patel在4月中旬发布的研究指出，在Agentic AI工作负载中，CPU侧的处理占据了总延迟的50%到90%。这意味着，当CPU在满负荷处理Python解释、网络爬虫或数据库搜索等工具调用时，GPU只能处于闲置的等待状态。

为了缓解这一系统瓶颈，算力基础设施的配置比例必须进行调整。Arm公司估算，传统AI数据中心每吉瓦电力大约需要3000万个CPU核心，而在AI Agent时代，这一需求将飙升至每吉瓦1.2亿个CPU核心，实现了四倍的增长。TrendForce预测，未来的CPU与GPU比例将向1:1至1:2的区间转移

发布于浙江