LLM 能力每 7 个月翻一番?
METR 刚刚整了个活,发布了一 LLM 基准测试研究, 相较于其它传统的 AI 性能评测方法,最大的突破是用人类完成任务的时间长度来衡量 LLM 能力,然后活就出来了:LLM 能力每 7 个月翻一番!
比如你现在可以看到 GPT-5 能稳定完成需要人类几小时的复杂任务,而按照这个指数增长趋势,到 2030 年 LLM 可能就能处理需要人类一年才能完成的工作了!这个图纵坐标轴最顶部给到的任务是——开一家新公司。
#ai生活指南##ai创造营#
发布于 日本
