麻省理工科技评论
25-05-26 21:55 微博认证:《麻省理工科技评论》杂志官方微博

【Agent时代需要新的基准测试:红杉中国推出xbench,量化智能体真实世界生产力】

随着人工智能技术的飞速发展,特别是 AI 智能体(Agent)能力的显著增强,现有基准测试在衡量其真实世界效能方面已显不足。

针对这一挑战,#红杉中国# (没错,那家知名投资机构)今日推出了一个 AI 基准测试工具 #xbench# ,并同步发布了相关技术报告《xbench:通过与专业对齐的真实世界评估来跟踪代理的生产力扩展》(xbench: Tracking Agents Productivity, Scaling with Profession-Aligned Real-World Evaluations),旨在为业界提供一个更科学、持久且能真实反映 AI 客观能力的评估框架。

据红杉中国方面介绍,xbench 的诞生源于他们在 #AI# 评测实践中遇到的问题。在过去两年多的时间里,这一工具一直在红杉中国内部孵化使用,最初作为追踪和评估基础模型能力的工具。自 2022 年 ChatGPT 发布后,红杉中国开始对主流模型进行追踪,观察到它们在特定测试集上的表现,在18个月内从较低水平提升至接近满分的程度。

然而,随着模型能力的快速提升,评估的有效时间在急剧缩短。红杉中国合伙人公元分享道,团队经历了三次题库迭代,每次模型都能很快“刷爆”现有题库。这种现象引发了他们的思考:当前被广泛使用的基准测试正面临一个日益尖锐的问题——真实地反映 AI 的客观能力变得越来越困难。

戳链接查看详情:http://t.cn/A6g38pvT