LLM 能力每 7 个月翻一番？METR 刚刚整了个活，发布了一 LLM 基准测试研究，相较于其它传统的 AI 性能评测方法，最大的突破是用人类完成任务的时间长度来衡量 LLM 能力，然后活就出来了：LLM 能力每 7 个月翻一番！比如你现在可以看到 GPT-5 能稳定完成需要人类几小时的复杂任务，而按照这个指数

LLM 能力每 7 个月翻一番？

METR 刚刚整了个活，发布了一 LLM 基准测试研究，相较于其它传统的 AI 性能评测方法，最大的突破是用人类完成任务的时间长度来衡量 LLM 能力，然后活就出来了：LLM 能力每 7 个月翻一番！

比如你现在可以看到 GPT-5 能稳定完成需要人类几小时的复杂任务，而按照这个指数增长趋势，到 2030 年 LLM 可能就能处理需要人类一年才能完成的工作了！这个图纵坐标轴最顶部给到的任务是——开一家新公司。

#ai生活指南##ai创造营#

发布于日本