MCP-Bench 提供了首个全面评估 LLM agent 工具使用能力的基准框架，助力揭示模型在复杂真实任务中的表现差异。• 基于 Model Context Protocol (MCP)，支持端到端评测 LLM 如何发现、选择并调用工具完成任务 • 涵盖 28 个多样化 MCP 服务器，涉及生物医药、数学计算、地理定位、艺术数据库等复杂

MCP-Bench 提供了首个全面评估 LLM agent 工具使用能力的基准框架，助力揭示模型在复杂真实任务中的表现差异。

• 基于 Model Context Protocol (MCP)，支持端到端评测 LLM 如何发现、选择并调用工具完成任务
• 涵盖 28 个多样化 MCP 服务器，涉及生物医药、数学计算、地理定位、艺术数据库等复杂领域
• 评价维度包括规则理解、任务完成度、工具调用效率与规划能力，支持单服务器及多服务器场景
• 领先模型排名：gpt-5 (0.749)、o3 (0.715)、gpt-oss-120b (0.692)，为 LLM 选型提供数据支撑
• 开源且易部署，提供详尽安装步骤和多模型接入指南，支持通过 OpenRouter 统一调用多家模型API
• 适合科研、工程、评测团队深入挖掘 LLM 在工具链协同中的真实能力和潜力

MCP-Bench 不仅是评价工具，更是推动 LLM 从语言理解向实际应用落地迈进的重要基石。了解更多细节🔗github.com/Accenture/mcp-bench
论文阅读🔗arxiv.org/pdf/2508.20453

#大语言模型# #AI评测# #工具调用# #开源项目# #人工智能#

发布于北京