【这是AI领域最容易被误解的一张图表】
每当 #OpenAI# 、Google 或 Anthropic 推出新一代前沿#大语言模型# ,AI 领域的从业者都会翘首以盼。大家会一直等待 METR 更新那张如今极具标志性的图表,这份期待才会落下。
METR 是一家人工智能研究非营利机构,机构名称的英文全称是 Model Evaluation & Threat Research,即模型评估与威胁研究。这张图表自去年 3 月首次发布以来,就在人工智能领域的相关探讨中占据重要地位。图表显示,人工智能的部分能力正呈指数级发展,而近期推出的模型,其表现更是超越了这一本就令人瞩目的发展趋势。
#Anthropic# 旗下性能最强的模型最新版本 Claude Opus 4.5 就是典型案例,该模型于 11 月末正式推出。12 月,METR 发布公告称,这款模型似乎能独立完成一项人类需要约 5 小时才能完成的任务。这一表现即便以指数级发展趋势来预判,也实现了大幅突破。Anthropic 的一名安全研究人员在推特上表示,基于这一研究结果,他将调整自己的研究方向。该公司的另一名员工则直白地发推称:“妈妈快来接我,我害怕了。”
但实际情况远比这些夸张的反应所呈现的复杂。一方面,METR 对特定模型能力的评估结果存在较大的误差范围。METR 曾在 X 平台明确表示,Claude Opus 4.5 或许只能稳定完成人类约 2 小时能做完的任务,也可能能成功完成人类耗时长达 20 小时的任务。受研究方法本身存在的不确定性影响,目前无法得出确切结论。
戳链接查看详情:http://t.cn/AX5XpIRa
