蚁工厂 25-04-30 20:25
微博认证:科技博主

Andrej Karpathy分享了一个可能更客观的大模型的评估体系:openrouter这种大模型API服务商的排行榜。
OpenRouter 允许个人/公司在不同的 LLM 提供商之间快速切换 API。它们的应用场景都是真实的(不是玩具问题或谜题),它们都有自己的私有评估,并且它们都有激励机制来确保选择正确,因此通过选择一个 LLM 而不是另一个,它们直接为某种能力+成本的组合进行投票。
不过现在受限于用户数和模型数,结果可能还不够客观。而且这种方式也会受到模型知名度等影响。
#AI创造营#

发布于 山东