【Agent时代需要新的基准测试：红杉中国推出xbench，量化智能体真实世界生产力】随着人工智能技术的飞速发展，特别是 AI 智能体（Agent）能力的显著增强，现有基准测试在衡量其真实世界效能方面已显不足。针对这一挑战，#红杉中国# （没错，那家知名投资机构）今日推出了一个 AI 基准测试工具

【Agent时代需要新的基准测试：红杉中国推出xbench，量化智能体真实世界生产力】

随着人工智能技术的飞速发展，特别是 AI 智能体（Agent）能力的显著增强，现有基准测试在衡量其真实世界效能方面已显不足。

针对这一挑战，#红杉中国# （没错，那家知名投资机构）今日推出了一个 AI 基准测试工具 #xbench# ，并同步发布了相关技术报告《xbench：通过与专业对齐的真实世界评估来跟踪代理的生产力扩展》（xbench: Tracking Agents Productivity, Scaling with Profession-Aligned Real-World Evaluations），旨在为业界提供一个更科学、持久且能真实反映 AI 客观能力的评估框架。

据红杉中国方面介绍，xbench 的诞生源于他们在 #AI# 评测实践中遇到的问题。在过去两年多的时间里，这一工具一直在红杉中国内部孵化使用，最初作为追踪和评估基础模型能力的工具。自 2022 年 ChatGPT 发布后，红杉中国开始对主流模型进行追踪，观察到它们在特定测试集上的表现，在18个月内从较低水平提升至接近满分的程度。

然而，随着模型能力的快速提升，评估的有效时间在急剧缩短。红杉中国合伙人公元分享道，团队经历了三次题库迭代，每次模型都能很快“刷爆”现有题库。这种现象引发了他们的思考：当前被广泛使用的基准测试正面临一个日益尖锐的问题——真实地反映 AI 的客观能力变得越来越困难。

戳链接查看详情：http://t.cn/A6g38pvT