LLM推理技术点梳理

列举今年到现在为止的几个 LLM 推理技术点

今年到现在为止，LLM 这条线最值得注意的变化，不是又出了一个更大的模型，也不是某个 benchmark 又提高了几分。真正重要的变化在 inference，也就是推理侧。

过去两年 AI 的主线就是堆更大的模型，堆更多 GPU，堆更大的训练集。这个阶段当然重要，没有前面的暴力堆算力，就不会有今天的基础模型能力。但现在问题开始变了。模型能力已经到了一定高度，接下来的核心矛盾，不再只是“能不能做出来”，而是“能不能便宜地跑、低延迟地跑、大规模地跑”。

今年出现的几个技术点，基本都在指向同一个方向：推理成本正在被系统性压低。

第一，小模型能力提升，背后是大模型合成数据。

现在 30B 左右模型的能力，已经不是过去那种“小模型玩具”了。以 Qwen3.6-35B-A3B 为例，它是 35B 总参数、3B 激活参数的 MoE 模型，官方定位就是 agentic coding 和多模态推理能力，Qwen 博客也强调它在编码和 agent 场景里可以和更大模型竞争。

这件事最关键的地方，不只是架构变好了，而是数据变了。今天的小模型能力提升，很大程度上来自更强大模型生成的高质量合成数据。这些数据不是普通互联网语料自然长出来的，而是大模型把高质量推理分布制造出来，再让小模型去压缩、吸收。

所以没有大模型能力、没有 synthetic data pipeline 的公司，如果只拿一个小模型出来讲故事，其实很可疑。小模型当然重要，但小模型背后必须有数据工厂。

第二，MoE 稀疏激活，让“大容量”和“低计算”可以同时存在。

MoE 的核心价值很直接：模型可以有很大的总容量，但每次推理只激活一部分参数。Qwen3.6-35B-A3B 这个名字里的 A3B 就很关键，总参数 35B，但每 token 激活约 3B。

这解决了过去 dense model 的一个根本矛盾：模型大了，能力强，但每个 token 都贵。MoE 把这个矛盾拆开了。总参数负责知识容量，激活参数负责实际计算成本。

当然，MoE 不是让显存压力凭空消失。权重总量还在，专家库还要放在显存或者通过其他方式管理。但它确实改变了每 token 的计算成本。对于推理来说，这是非常关键的一步。

第三，MTP 多 token 预测，开始改变逐 token 解码。

传统 LLM 生成是一个 token 一个 token 往外吐。这个机制天然慢，因为每生成一个 token，都要跑一次解码路径。MTP 的意义，就是让模型不只预测下一个 token，而是预测后续多个 token，再通过验证机制确认。

这对开放聊天未必总是巨大提升，因为开放式文本的熵很高，后续 token 不确定性强。但在代码、Agent、tool calling、固定 JSON、交易信号、结构化输出里，MTP 的潜力非常大。因为这些场景输出空间窄，格式强约束，后续 token 更容易被前文锁死。

也就是说，MTP 真正适合的不是闲聊，而是低熵任务。它会把很多生产型 inference 从“逐 token 反应”变成“成段确认”。

第四，FP8 / FP4 低 bit 推理，把显存和带宽压力往下压。

过去很多模型推理主要跑 BF16 / FP16。现在 FP8 已经越来越常见，FP4/NVFP4 也开始成为 Blackwell 之后的重要方向。NVIDIA 官方已经把 NVFP4 作为 Blackwell 低精度推理的重要能力来讲，它的目标就是降低存储和显存带宽压力，同时尽量控制精度损失。

这里的关键不是“数字从 16 bit 变成 4 bit”这么简单。LLM inference 很多时候是 memory-bound，也就是卡在数据搬运，而不是卡在矩阵计算。位宽下降，意味着同样带宽能搬更多权重，同样显存能放更大模型，同样功耗能完成更多 token。

所以 FP4 的战略意义很大。它不是一个普通优化，而是推理成本曲线的一部分。

第五，TurboQuant / KV cache 压缩，开始解决长上下文瓶颈。

长上下文推理里，KV cache 是非常大的瓶颈。模型每生成一个 token，都要读写历史 KV cache。上下文越长，KV cache 越大，decode 阶段越容易被内存带宽拖住。

Google Research 今年公开的 TurboQuant 就是这个方向的典型。它主打 KV cache 压缩和向量压缩，目标是在不训练、不微调的前提下，把 KV cache 压到 3 到 4 bit 量级，并维持准确性。

这件事的意义很大，它不只是省显存，也会加速。因为 decode 阶段很多时候就是在搬 KV cache。少搬数据，自然就更快。

这也是为什么 TurboQuant 不能简单理解成“算子优化”。它更准确的定位是：长上下文推理的带宽减负器。

第六，Token efficiency，也就是用更少 token 完成同样任务。

这个点很多人忽视，但它非常重要。

推理效率不能只看 TPS。TPS 是每秒生成多少 token，但真正的生产效率要看完成同一个任务需要多少 token。过去很多 reasoning model 为了提高正确率，会消耗大量 thinking tokens。结果是做对了，但成本和延迟也上去了。

下一代模型一定会越来越重视 token efficiency。也就是说，能少想就少想，能直接完成就直接完成。复杂任务才展开推理，简单任务快速结束。

这件事对成本的影响非常大。如果同样任务，过去要 2000 token，现在 500 token 就能完成，那任务级成本就是直接下降 4 倍。前面的 MoE、FP4、MTP、KV cache 压缩，是降低每个 token 的成本；token efficiency 是减少完成任务所需 token 数。两边一起压，成本下降会非常快。

第七，硬件侧也在同步推进，尤其是 HBM4 和内存带宽。

今年还必须看到硬件侧的变化。Blackwell 之后，Rubin / Vera Rubin 这条路线最重要的地方，不只是 FLOPS 继续提高，而是内存系统继续增强。Micron 已经宣布面向 NVIDIA Vera Rubin 的 HBM4 进入大规模生产，称 HBM4 相比 HBM3E 有 2.3 倍带宽和超过 20% 的功耗效率提升。

这对 LLM inference 很关键。因为现在很多推理不是算力不够，而是 memory bandwidth 不够。权重、KV cache、activation、context state，很多东西都在反复搬运。HBM4 的意义，就是提高数据搬运能力。

也就是说，软件侧在减少需要搬的数据，硬件侧在提高搬数据的速度。这两个方向叠加，推理效率会继续往下压。

把这些点连起来看，结论就很清楚了。

今年的 LLM 推理技术，不是几个孤立优化，而是一条完整链路：

大模型合成数据提升小模型智力；
MoE 降低每 token 激活计算；
MTP 提高低熵输出速度；
FP8 / FP4 降低权重和带宽成本；
TurboQuant / KV cache 压缩降低长上下文成本；
Token efficiency 减少完成任务所需 token；
HBM4 和新架构提高硬件侧内存带宽。

这是一整套推理成本压缩体系。

所以我现在的判断是：盲目堆算力的阶段，可能已经接近尾声了。

不是说算力不重要了。恰恰相反，算力仍然非常重要。但市场不能再只看“谁买了多少卡”“谁建了多少数据中心”“谁训练了多大的模型”。下一阶段更重要的是：谁能用同样的功耗、同样的内存、同样的硬件，跑出更高的有效智能密度。

过去 AI 的竞争是训练规模竞争。接下来很可能变成推理效率竞争。

而且这里还要加上杰文斯悖论。推理越便宜，总调用量未必下降，反而可能暴涨。因为 AI 不再只是聊天框，而会变成所有软件后台的默认推理层。

所以推理成本指数性下降，不代表芯片需求下降。相反，它可能打开更大的需求曲线。

但这也意味着，大家看芯片股的时候要更小心。AI 推理成本正在指数性下降。盲目堆算力的时代可能快到头了，但 AI 算力需求肯定不会下降。真正的变化是，芯片股的逻辑会从“训练军备竞赛”，逐渐转向“推理基础设施战争”。谁能提供更高带宽、更低功耗、更好低精度、更强互联、更适合 inference 的系统，谁才会真正吃到下一阶段的红利。

发布于加拿大