爱可可-爱生活
25-09-01 11:41 微博认证:AI博主 2025微博新锐新知博主

MCP-Bench 提供了首个全面评估 LLM agent 工具使用能力的基准框架,助力揭示模型在复杂真实任务中的表现差异。

• 基于 Model Context Protocol (MCP),支持端到端评测 LLM 如何发现、选择并调用工具完成任务
• 涵盖 28 个多样化 MCP 服务器,涉及生物医药、数学计算、地理定位、艺术数据库等复杂领域
• 评价维度包括规则理解、任务完成度、工具调用效率与规划能力,支持单服务器及多服务器场景
• 领先模型排名:gpt-5 (0.749)、o3 (0.715)、gpt-oss-120b (0.692),为 LLM 选型提供数据支撑
• 开源且易部署,提供详尽安装步骤和多模型接入指南,支持通过 OpenRouter 统一调用多家模型API
• 适合科研、工程、评测团队深入挖掘 LLM 在工具链协同中的真实能力和潜力

MCP-Bench 不仅是评价工具,更是推动 LLM 从语言理解向实际应用落地迈进的重要基石。了解更多细节🔗github.com/Accenture/mcp-bench
论文阅读🔗arxiv.org/pdf/2508.20453

#大语言模型# #AI评测# #工具调用# #开源项目# #人工智能#

发布于 北京