MCP-Bench 是一个全面的评估框架,旨在通过Model Context Protocol (MCP) 评估大型语言模型(LLMs)在工具使用场景中的能力。该基准提供了一个端到端的管道,用于评估不同LLMs如何有效地发现、选择和利用工具来解决实际任务。
MCP-Bench 包含28个多样化的MCP服务器,涵盖从生物医学研究数据到天气预报等广泛领域,为LLMs提供了丰富的测试环境。排行榜展示了不同模型的整体得分,反映了它们在规则理解、任务完成、工具使用和规划有效性等方面的平均表现。
这个项目对于关注AI性能评估的研究者和开发者来说非常有价值!🌟
#AI创造营##路##微博兴趣创作计划##recent_14#
Github链接:http://t.cn/AXPSdCl2
发布于 浙江
