AI领域最易误解图表

【这是AI领域最容易被误解的一张图表】

每当 #OpenAI# 、Google 或 Anthropic 推出新一代前沿#大语言模型# ，AI 领域的从业者都会翘首以盼。大家会一直等待 METR 更新那张如今极具标志性的图表，这份期待才会落下。

METR 是一家人工智能研究非营利机构，机构名称的英文全称是 Model Evaluation & Threat Research，即模型评估与威胁研究。这张图表自去年 3 月首次发布以来，就在人工智能领域的相关探讨中占据重要地位。图表显示，人工智能的部分能力正呈指数级发展，而近期推出的模型，其表现更是超越了这一本就令人瞩目的发展趋势。

#Anthropic# 旗下性能最强的模型最新版本 Claude Opus 4.5 就是典型案例，该模型于 11 月末正式推出。12 月，METR 发布公告称，这款模型似乎能独立完成一项人类需要约 5 小时才能完成的任务。这一表现即便以指数级发展趋势来预判，也实现了大幅突破。Anthropic 的一名安全研究人员在推特上表示，基于这一研究结果，他将调整自己的研究方向。该公司的另一名员工则直白地发推称：“妈妈快来接我，我害怕了。”

但实际情况远比这些夸张的反应所呈现的复杂。一方面，METR 对特定模型能力的评估结果存在较大的误差范围。METR 曾在 X 平台明确表示，Claude Opus 4.5 或许只能稳定完成人类约 2 小时能做完的任务，也可能能成功完成人类耗时长达 20 小时的任务。受研究方法本身存在的不确定性影响，目前无法得出确切结论。

戳链接查看详情：http://t.cn/AX5XpIRa