AI推理硬件破局之路

【当AI推理遇上硬件瓶颈：四条破局之路】

David Patterson，这位计算机体系结构领域的传奇人物，与Google同事联合发表了一篇重磅论文，直指大语言模型推理的硬件困境。

一个令人深思的数据：1976年计算机体系结构会议上，约40%的论文来自工业界；到2025年，这个比例跌破4%。学术与产业之间的鸿沟正在加深。这篇论文试图重建这座桥梁。

核心判断：LLM推理正处于危机之中。训练展示了AI的突破性能力，但推理成本决定了商业可行性。随着用户量激增，服务最先进模型的成本让企业不堪重负。

六大趋势让推理雪上加霜：MoE架构将专家数量扩展到数百个，内存和通信压力倍增；推理模型在回答前生成大量“思考”token，延迟和内存双重承压；多模态从文本扩展到图像、音频、视频；长上下文窗口提升质量但吞噬资源；RAG引入外部知识库增加负担；扩散模型则对算力提出更高要求。

问题的根源在于：当前主流AI硬件的设计哲学与LLM解码推理存在根本性错配。

GPU和TPU的FLOPS增长远超内存带宽。2012到2022年间，英伟达GPU的64位浮点运算能力提升了80倍，但带宽仅增长17倍。这个剪刀差还在持续扩大。更棘手的是，HBM的单位容量和带宽成本在上涨，而传统DDR内存的成本却在下降。DRAM密度增长也在放缓，从8Gb到32Gb的四倍增长将耗时超过10年，而此前只需3到6年。

Cerebras和Groq曾尝试用纯SRAM方案绕开这些挑战，但LLM的规模很快就超出了片上SRAM的承载能力，两家公司不得不后来加装外部DRAM。

论文提出四条研究路径：

第一，高带宽闪存。将闪存芯片像HBM一样堆叠，实现10倍内存容量提升。闪存的写入耐久性有限，但推理时权重是冻结的，恰好适合这种特性。这能让系统规模大幅缩小，降低功耗、成本和碳排放。

第二，近内存处理。将计算逻辑放在内存附近而非内部，既获得高带宽优势，又避免了传统PIM方案在软件分片和功耗方面的困难。对于数据中心LLM推理，PNM比PIM更具可行性。

第三，3D内存逻辑堆叠。通过垂直硅通孔实现宽而密的内存接口，在低功耗下获得高带宽。散热是主要挑战，但LLM解码推理本身算术强度低，可以通过降低时钟频率和电压来应对。

第四，低延迟互连。LLM推理对网络延迟比带宽更敏感，因为解码阶段的消息往往很小但很频繁。高连接度拓扑、网络内处理、芯片级优化都是可探索的方向。

这四条路径并非互斥，而是可以协同组合。它们共同指向一个核心洞见：我们需要重新思考AI推理硬件的设计原则，从追求峰值算力转向优化内存和延迟。

Patterson在论文末尾呼吁学术界响应这一机遇，加速AI研究的实际落地。当世界迫切需要可负担的AI推理时，硬件创新的价值从未如此清晰。

arxiv.org/pdf/2601.05047

发布于北京