列举今年到现在为止的几个 LLM 推理技术点
今年到现在为止,LLM 这条线最值得注意的变化,不是又出了一个更大的模型,也不是某个 benchmark 又提高了几分。真正重要的变化在 inference,也就是推理侧。
过去两年 AI 的主线就是堆更大的模型,堆更多 GPU,堆更大的训练集。这个阶段当然重要,没有前面的暴力堆算力,就不会有今天的基础模型能力。但现在问题开始变了。模型能力已经到了一定高度,接下来的核心矛盾,不再只是“能不能做出来”,而是“能不能便宜地跑、低延迟地跑、大规模地跑”。
今年出现的几个技术点,基本都在指向同一个方向:推理成本正在被系统性压低。
第一,小模型能力提升,背后是大模型合成数据。
现在 30B 左右模型的能力,已经不是过去那种“小模型玩具”了。以 Qwen3.6-35B-A3B 为例,它是 35B 总参数、3B 激活参数的 MoE 模型,官方定位就是 agentic coding 和多模态推理能力,Qwen 博客也强调它在编码和 agent 场景里可以和更大模型竞争。 
这件事最关键的地方,不只是架构变好了,而是数据变了。今天的小模型能力提升,很大程度上来自更强大模型生成的高质量合成数据。这些数据不是普通互联网语料自然长出来的,而是大模型把高质量推理分布制造出来,再让小模型去压缩、吸收。
所以没有大模型能力、没有 synthetic data pipeline 的公司,如果只拿一个小模型出来讲故事,其实很可疑。小模型当然重要,但小模型背后必须有数据工厂。
第二,MoE 稀疏激活,让“大容量”和“低计算”可以同时存在。
MoE 的核心价值很直接:模型可以有很大的总容量,但每次推理只激活一部分参数。Qwen3.6-35B-A3B 这个名字里的 A3B 就很关键,总参数 35B,但每 token 激活约 3B。 
这解决了过去 dense model 的一个根本矛盾:模型大了,能力强,但每个 token 都贵。MoE 把这个矛盾拆开了。总参数负责知识容量,激活参数负责实际计算成本。
当然,MoE 不是让显存压力凭空消失。权重总量还在,专家库还要放在显存或者通过其他方式管理。但它确实改变了每 token 的计算成本。对于推理来说,这是非常关键的一步。
第三,MTP 多 token 预测,开始改变逐 token 解码。
传统 LLM 生成是一个 token 一个 token 往外吐。这个机制天然慢,因为每生成一个 token,都要跑一次解码路径。MTP 的意义,就是让模型不只预测下一个 token,而是预测后续多个 token,再通过验证机制确认。
这对开放聊天未必总是巨大提升,因为开放式文本的熵很高,后续 token 不确定性强。但在代码、Agent、tool calling、固定 JSON、交易信号、结构化输出里,MTP 的潜力非常大。因为这些场景输出空间窄,格式强约束,后续 token 更容易被前文锁死。
也就是说,MTP 真正适合的不是闲聊,而是低熵任务。它会把很多生产型 inference 从“逐 token 反应”变成“成段确认”。
第四,FP8 / FP4 低 bit 推理,把显存和带宽压力往下压。
过去很多模型推理主要跑 BF16 / FP16。现在 FP8 已经越来越常见,FP4/NVFP4 也开始成为 Blackwell 之后的重要方向。NVIDIA 官方已经把 NVFP4 作为 Blackwell 低精度推理的重要能力来讲,它的目标就是降低存储和显存带宽压力,同时尽量控制精度损失。 
这里的关键不是“数字从 16 bit 变成 4 bit”这么简单。LLM inference 很多时候是 memory-bound,也就是卡在数据搬运,而不是卡在矩阵计算。位宽下降,意味着同样带宽能搬更多权重,同样显存能放更大模型,同样功耗能完成更多 token。
所以 FP4 的战略意义很大。它不是一个普通优化,而是推理成本曲线的一部分。
第五,TurboQuant / KV cache 压缩,开始解决长上下文瓶颈。
长上下文推理里,KV cache 是非常大的瓶颈。模型每生成一个 token,都要读写历史 KV cache。上下文越长,KV cache 越大,decode 阶段越容易被内存带宽拖住。
Google Research 今年公开的 TurboQuant 就是这个方向的典型。它主打 KV cache 压缩和向量压缩,目标是在不训练、不微调的前提下,把 KV cache 压到 3 到 4 bit 量级,并维持准确性。 
这件事的意义很大,它不只是省显存,也会加速。因为 decode 阶段很多时候就是在搬 KV cache。少搬数据,自然就更快。
这也是为什么 TurboQuant 不能简单理解成“算子优化”。它更准确的定位是:长上下文推理的带宽减负器。
第六,Token efficiency,也就是用更少 token 完成同样任务。
这个点很多人忽视,但它非常重要。
推理效率不能只看 TPS。TPS 是每秒生成多少 token,但真正的生产效率要看完成同一个任务需要多少 token。过去很多 reasoning model 为了提高正确率,会消耗大量 thinking tokens。结果是做对了,但成本和延迟也上去了。
下一代模型一定会越来越重视 token efficiency。也就是说,能少想就少想,能直接完成就直接完成。复杂任务才展开推理,简单任务快速结束。
这件事对成本的影响非常大。如果同样任务,过去要 2000 token,现在 500 token 就能完成,那任务级成本就是直接下降 4 倍。前面的 MoE、FP4、MTP、KV cache 压缩,是降低每个 token 的成本;token efficiency 是减少完成任务所需 token 数。两边一起压,成本下降会非常快。
第七,硬件侧也在同步推进,尤其是 HBM4 和内存带宽。
今年还必须看到硬件侧的变化。Blackwell 之后,Rubin / Vera Rubin 这条路线最重要的地方,不只是 FLOPS 继续提高,而是内存系统继续增强。Micron 已经宣布面向 NVIDIA Vera Rubin 的 HBM4 进入大规模生产,称 HBM4 相比 HBM3E 有 2.3 倍带宽和超过 20% 的功耗效率提升。 
这对 LLM inference 很关键。因为现在很多推理不是算力不够,而是 memory bandwidth 不够。权重、KV cache、activation、context state,很多东西都在反复搬运。HBM4 的意义,就是提高数据搬运能力。
也就是说,软件侧在减少需要搬的数据,硬件侧在提高搬数据的速度。这两个方向叠加,推理效率会继续往下压。
把这些点连起来看,结论就很清楚了。
今年的 LLM 推理技术,不是几个孤立优化,而是一条完整链路:
大模型合成数据提升小模型智力;
MoE 降低每 token 激活计算;
MTP 提高低熵输出速度;
FP8 / FP4 降低权重和带宽成本;
TurboQuant / KV cache 压缩降低长上下文成本;
Token efficiency 减少完成任务所需 token;
HBM4 和新架构提高硬件侧内存带宽。
这是一整套推理成本压缩体系。
所以我现在的判断是:盲目堆算力的阶段,可能已经接近尾声了。
不是说算力不重要了。恰恰相反,算力仍然非常重要。但市场不能再只看“谁买了多少卡”“谁建了多少数据中心”“谁训练了多大的模型”。下一阶段更重要的是:谁能用同样的功耗、同样的内存、同样的硬件,跑出更高的有效智能密度。
过去 AI 的竞争是训练规模竞争。接下来很可能变成推理效率竞争。
而且这里还要加上杰文斯悖论。推理越便宜,总调用量未必下降,反而可能暴涨。因为 AI 不再只是聊天框,而会变成所有软件后台的默认推理层。
所以推理成本指数性下降,不代表芯片需求下降。相反,它可能打开更大的需求曲线。
但这也意味着,大家看芯片股的时候要更小心。AI 推理成本正在指数性下降。盲目堆算力的时代可能快到头了,但 AI 算力需求肯定不会下降。真正的变化是,芯片股的逻辑会从“训练军备竞赛”,逐渐转向“推理基础设施战争”。谁能提供更高带宽、更低功耗、更好低精度、更强互联、更适合 inference 的系统,谁才会真正吃到下一阶段的红利。
发布于 加拿大
