非官方大模型API可靠性存疑

非官方的大模型API靠谱吗？
arxiv.org/pdf/2603.01919
这篇论文讨论并世界测试了众多非官方API提供商。一些第三方服务宣称能绕过地区/支付限制、以更低成本提供与官方 LLM API “同款模型同等输出”的接口。文中叫“影子API”。这些服务靠谱吗？
结论是很不靠谱。
在 MedQA 上，Gemini-2.5-flash 从官方 83.82% 准确率跌到影子 API 约 37%。
有45.83% 的未通过大模型指纹验证，还有12%可能是用了降级的模型。
差不多就是用第三方模型就随缘看运气吧。

#HOW I AI#

发布于山东