AI推理架构革命

【每秒1000个token，AI推理迎来架构革命】

快速阅读： Inception Labs发布Mercury 2，基于扩散模型架构，速度超过1000 tokens/秒，比同类模型快5倍以上。它不是要替代最强的推理模型，而是在“够用的智能+极快的速度”这个维度上重新划线。

---

当前主流LLM的生成方式，本质上是个打字机：一个字一个字地蹦，从左到右，无法并行。Mercury 2不这么干——它用扩散模型的方式工作，更像一个编辑对整篇草稿同时动手，多个token并行精炼收敛，速度超过1000 tokens/秒。

这个数字有多直观？Anthropic的Haiku大约是50 tokens/秒。

速度的意义往往被低估。一个Agent完成任务需要链式调用几十次推理，每次节省的延迟会在整个循环里不断叠加。原本要跑10分钟的原型测试，压到1分钟以内，这不只是“更快”，而是整个开发节奏的变化。有观点认为，当你可以做多轮快速迭代时，即使单次准确率稍低，最终结果也可能超过一次慢速但“更聪明”的调用。

这个逻辑有点像：与其等一个全面深度的研究报告，不如用80%的质量、20%的时间先跑出来，再快速迭代。

当然，Mercury 2并不是当前最强的推理模型。Inception联合创始人在讨论中明确说，可以把它理解为和Haiku 4.5、GPT-Mini同一智能梯队，主要差异在延迟。它不打算和Opus 4.5这类模型比硬核推理，它瞄准的是“快速Agent”这个位置——代码补全、工具调用、RAG管道、实时语音，这些场景里响应速度直接影响用户体验，容不得等待。

有观点认为，一旦模型足够快、足够小，很多原本不值得用AI的日常场景就会变得可行：拼写检查、输入法纠错、数据库查询优化，甚至是代码语法高亮。我们低估了“普通任务+极快推理”能解锁多少空间。

现在有意思的问题来了：如果速度是独立于智能之外的另一个维度，那评估模型的框架是不是要重写？有人提出“每秒智能量”这个概念——不只是tokens/s，而是单位时间内实际有效信息密度。这还没有公认的度量方式，但直觉上是对的。

Mercury 2背后更深的赌注是：扩散架构能不能随着规模扩大，在保持速度优势的同时追上最强的自回归模型？自回归路线已经被投入了远超扩散路线的资源和工程积累。如果同等投入下扩散模型能跑得更快，这个架构切换可能比想象中来得更早。

目前这个问题还没有答案。

---

简评：

最可怕的竞争者，从来不是“更强的同类”，而是“足够好的异类”。Mercury 2不跟Opus比智商，就像拼多多不跟京东比品质——它找到了自己的生态位：代码补全、输入法纠错、实时语音这些“微场景”。单看每个都不性感，但加起来就是个隐形帝国。这让我想起一句老话：大象踩不死蚂蚁，因为蚂蚁钻进了大象进不去的缝隙里。AI的终局可能不是一个全能神，而是一群各司其职的精灵。1000 tokens/秒，不是炫技，是入场券。

---

inceptionlabs.ai/blog/introducing-mercury-2

发布于北京