爱可可-爱生活 26-01-22 07:02
微博认证:AI博主 2025微博新锐新知博主

【当AI推理遇上硬件瓶颈:四条破局之路】

David Patterson,这位计算机体系结构领域的传奇人物,与Google同事联合发表了一篇重磅论文,直指大语言模型推理的硬件困境。

一个令人深思的数据:1976年计算机体系结构会议上,约40%的论文来自工业界;到2025年,这个比例跌破4%。学术与产业之间的鸿沟正在加深。这篇论文试图重建这座桥梁。

核心判断:LLM推理正处于危机之中。训练展示了AI的突破性能力,但推理成本决定了商业可行性。随着用户量激增,服务最先进模型的成本让企业不堪重负。

六大趋势让推理雪上加霜:MoE架构将专家数量扩展到数百个,内存和通信压力倍增;推理模型在回答前生成大量“思考”token,延迟和内存双重承压;多模态从文本扩展到图像、音频、视频;长上下文窗口提升质量但吞噬资源;RAG引入外部知识库增加负担;扩散模型则对算力提出更高要求。

问题的根源在于:当前主流AI硬件的设计哲学与LLM解码推理存在根本性错配。

GPU和TPU的FLOPS增长远超内存带宽。2012到2022年间,英伟达GPU的64位浮点运算能力提升了80倍,但带宽仅增长17倍。这个剪刀差还在持续扩大。更棘手的是,HBM的单位容量和带宽成本在上涨,而传统DDR内存的成本却在下降。DRAM密度增长也在放缓,从8Gb到32Gb的四倍增长将耗时超过10年,而此前只需3到6年。

Cerebras和Groq曾尝试用纯SRAM方案绕开这些挑战,但LLM的规模很快就超出了片上SRAM的承载能力,两家公司不得不后来加装外部DRAM。

论文提出四条研究路径:

第一,高带宽闪存。将闪存芯片像HBM一样堆叠,实现10倍内存容量提升。闪存的写入耐久性有限,但推理时权重是冻结的,恰好适合这种特性。这能让系统规模大幅缩小,降低功耗、成本和碳排放。

第二,近内存处理。将计算逻辑放在内存附近而非内部,既获得高带宽优势,又避免了传统PIM方案在软件分片和功耗方面的困难。对于数据中心LLM推理,PNM比PIM更具可行性。

第三,3D内存逻辑堆叠。通过垂直硅通孔实现宽而密的内存接口,在低功耗下获得高带宽。散热是主要挑战,但LLM解码推理本身算术强度低,可以通过降低时钟频率和电压来应对。

第四,低延迟互连。LLM推理对网络延迟比带宽更敏感,因为解码阶段的消息往往很小但很频繁。高连接度拓扑、网络内处理、芯片级优化都是可探索的方向。

这四条路径并非互斥,而是可以协同组合。它们共同指向一个核心洞见:我们需要重新思考AI推理硬件的设计原则,从追求峰值算力转向优化内存和延迟。

Patterson在论文末尾呼吁学术界响应这一机遇,加速AI研究的实际落地。当世界迫切需要可负担的AI推理时,硬件创新的价值从未如此清晰。

arxiv.org/pdf/2601.05047

发布于 北京