【每秒1000个token,AI推理迎来架构革命】
快速阅读: Inception Labs发布Mercury 2,基于扩散模型架构,速度超过1000 tokens/秒,比同类模型快5倍以上。它不是要替代最强的推理模型,而是在“够用的智能+极快的速度”这个维度上重新划线。
---
当前主流LLM的生成方式,本质上是个打字机:一个字一个字地蹦,从左到右,无法并行。Mercury 2不这么干——它用扩散模型的方式工作,更像一个编辑对整篇草稿同时动手,多个token并行精炼收敛,速度超过1000 tokens/秒。
这个数字有多直观?Anthropic的Haiku大约是50 tokens/秒。
速度的意义往往被低估。一个Agent完成任务需要链式调用几十次推理,每次节省的延迟会在整个循环里不断叠加。原本要跑10分钟的原型测试,压到1分钟以内,这不只是“更快”,而是整个开发节奏的变化。有观点认为,当你可以做多轮快速迭代时,即使单次准确率稍低,最终结果也可能超过一次慢速但“更聪明”的调用。
这个逻辑有点像:与其等一个全面深度的研究报告,不如用80%的质量、20%的时间先跑出来,再快速迭代。
当然,Mercury 2并不是当前最强的推理模型。Inception联合创始人在讨论中明确说,可以把它理解为和Haiku 4.5、GPT-Mini同一智能梯队,主要差异在延迟。它不打算和Opus 4.5这类模型比硬核推理,它瞄准的是“快速Agent”这个位置——代码补全、工具调用、RAG管道、实时语音,这些场景里响应速度直接影响用户体验,容不得等待。
有观点认为,一旦模型足够快、足够小,很多原本不值得用AI的日常场景就会变得可行:拼写检查、输入法纠错、数据库查询优化,甚至是代码语法高亮。我们低估了“普通任务+极快推理”能解锁多少空间。
现在有意思的问题来了:如果速度是独立于智能之外的另一个维度,那评估模型的框架是不是要重写?有人提出“每秒智能量”这个概念——不只是tokens/s,而是单位时间内实际有效信息密度。这还没有公认的度量方式,但直觉上是对的。
Mercury 2背后更深的赌注是:扩散架构能不能随着规模扩大,在保持速度优势的同时追上最强的自回归模型?自回归路线已经被投入了远超扩散路线的资源和工程积累。如果同等投入下扩散模型能跑得更快,这个架构切换可能比想象中来得更早。
目前这个问题还没有答案。
---
简评:
最可怕的竞争者,从来不是“更强的同类”,而是“足够好的异类”。Mercury 2不跟Opus比智商,就像拼多多不跟京东比品质——它找到了自己的生态位:代码补全、输入法纠错、实时语音这些“微场景”。单看每个都不性感,但加起来就是个隐形帝国。这让我想起一句老话:大象踩不死蚂蚁,因为蚂蚁钻进了大象进不去的缝隙里。AI的终局可能不是一个全能神,而是一群各司其职的精灵。1000 tokens/秒,不是炫技,是入场券。
---
inceptionlabs.ai/blog/introducing-mercury-2
