Andrej Karpathy分享了一个可能更客观的大模型的评估体系：openrouter这种大模型API服务商的排行榜。OpenRouter 允许个人/公司在不同的 LLM 提供商之间快速切换 API。它们的应用场景都是真实的（不是玩具问题或谜题），它们都有自己的私有评估，并且它们都有激励机制来确保选择正确，因此通过选择一个

Andrej Karpathy分享了一个可能更客观的大模型的评估体系：openrouter这种大模型API服务商的排行榜。
OpenRouter 允许个人/公司在不同的 LLM 提供商之间快速切换 API。它们的应用场景都是真实的（不是玩具问题或谜题），它们都有自己的私有评估，并且它们都有激励机制来确保选择正确，因此通过选择一个 LLM 而不是另一个，它们直接为某种能力+成本的组合进行投票。
不过现在受限于用户数和模型数，结果可能还不够客观。而且这种方式也会受到模型知名度等影响。
#AI创造营#

发布于山东