叶荣添 25-12-12 10:59
微博认证:股市分析家

OpenAI 今天凌晨发布了GPT-5.2,释放了一个被严重低估的信号:

AI 的核心进步,已经从“能力提升”,转向了推理成本的指数级下降。

在 ARC-AGI-1 这一被认为“专门用来反对暴力算力路线”的基准上,一年前模型达到 88% 准确率,—
每道任务成本约 4500 美元;而今天,GPT-5.2 Pro 在 90.5% 准确率下,成本降至 11.64 美元,12 个月内效率提升约 390 倍。

ARC-AGI 的设计者 François Chollet 在 2019 年提出这一测试,核心目的并不是考模型“算得多快”,而是验证它是否具备真正的抽象泛化能力。每道题都是全新构造,无法通过记忆或简单拟合完成。长期以来,人类稳定在 95% 左右,而 AI 系统多年停留在个位数,学界一度认为这是 scaling law 无法跨越的边界。

但过去一年发生的变化,改变了这个判断。
OpenAI、Anthropic、Google 等最新一代模型,在准确率持续提升的同时,更重要的是将“单位推理成本”压缩到了工程可落地的区间。

这意味着一个关键转折点已经出现:
AI 的推理能力,开始在经济意义上接近甚至低于人类。

这并不意味着 AI 已全面超过人类智能,而是表明“泛化能力不足”的问题,正在从“能力瓶颈”转化为“效率优化问题”。即便在 2025 年推出、难度显著提高的 ARC-AGI-2 上,当前模型与人类仍有差距,但这种差距已经表现为成本与算力配置差异,而非结构性不可达。

从技术史角度看,这类变化往往不是线性进步,而是生产函数的重写。
当高阶推理从“稀缺能力”变为“可规模化资源”,AI 的影响将不再局限于技术圈,而会持续外溢到科研、工程、金融与组织形态本身。

因此,这一轮 AI 发展更像是一场效率革命,而非泡沫扩张。
真正需要被重新理解的,不是“AI 会不会有用”,而是——
当推理变得足够便宜,哪些事情将被重新定义。

发布于 北京