新智元 26-04-13 17:04
微博认证:新智元官方微博

全球三家最严肃的AI研究机构,过去一周集体撞车了!

4月3日,美国研究机构METR悄悄更新了一份技术报告,核心结论压成一句话。

AI能力每88.6天翻倍一次。

5天后,4月8日,Meta超级智能实验室发布全新模型Muse Spark,公开了一条内部叫做scaling ladder的训练效率曲线,结论也是一句话。

要追上一年前Llama 4 Maverick的性能,新模型只需要不到十分之一的训练算力。

一份测任务时长,一份测训练算力。两家机构没有任何往来,研究方法毫无重合。

但当两条曲线被换算到同一坐标系里,斜率几乎完全重合。

到这里,事情已经够离谱了。

更离谱的是,这条曲线,被一个中国团队两年前就完整地画出来过,还登上了Nature子刊。

它叫密度定律。

两年前,有人提前画过这条线

这个概念最早出现在一篇叫「Densing Law of LLMs」的论文里。

作者是面壁智能和清华大学的联合团队,孙茂松和刘知远两位教授领衔,第一作者是博士生肖朝军。

论文2024年12月挂上arXiv,2025年11月被Nature Machine Intelligence接收。

论文地址:http://t.cn/A6m91DKy

论文地址:http://t.cn/AX2yNfvF

论文的核心判断只有一句话。

模型智能密度随时间呈指数级增强,达到特定智能水平所需的参数量,每3.5个月下降一半。

放在2024年底,这话听上去有点过激。

那时全行业都在崇拜scaling law。OpenAI在堆模型,Anthropic在堆模型,Meta也在堆模型。

所有人都觉得参数越大智能越强,把GPU烧到极致才是正道。

但研究团队不这么看。

他们把当时所有有影响力的开源基础模型,从Llama-1一路到Gemma-2、MiniCPM-3,总共51个模型都放进了同一把尺子里去量。

五大基准跑完,结果是几乎完美的指数关系,R²达到0.934。

考虑到大模型评测很容易被数据污染干扰,他们又用一个新构建的污染过滤数据集MMLU-CF重测了一次。R²=0.953。

两次拟合都拿到了接近1的R²。统计学上,这几乎不可能是巧合。

换句话说就是,这两年发布的每一个主流开源模型,不管来自哪个团队、用什么架构,都落在了同一条「每3.5个月翻倍」的指数线上。