海外AI模型非英语提问降智

你用中文去问 ChatGPT、Gemini、Claude 等海外顶尖模型问题时，实际上这些模型会自动降智。

《经济学人》引用了大量学术论文和基准测试数据，认为『大语言模型的能力，几乎是按语言分配的，而分配方式极不均匀。』

2025 年 10 月的一篇预印本论文对多个模型做了系统比对，发现非英语任务的准确率比英语低 12 到 29 个百分点。

最极端的情况下，一个能答对约 75% 英文问题的模型，换一种语言，得分直接暴跌至 22.6%。

语种鸿沟不是体感上的差一点，在某些模型和语言的组合下，它是断崖式的能力坍塌。

后续的实验证明，这条鸿沟并没有随着模型迭代而自动收窄。换句话说，模型虽然一直在变强，但变强的红利大部分被英语吃掉了。

顶尖的海外 AI 模型面对非英语提问时，内部会先用英语检索事实，再把答案翻译成目标语言输出。这个先想英文、再翻译的中间环节本身就是错误的温床。

问题不只出在训练数据的量上，更出在模型切分文本的底层机制上。以 GPT-5 为例，《世界人权宣言》第一句话，英文只需 36 个 Token，印地语要 47 个，中文要 62 个，约鲁巴语飙到 132 个。

Token 数量直接关联 API 调用成本 —— 同样的 Prompt，非英语输入最高要付五倍的钱。这意味着最需要大模型服务的群体，反而要为更差的服务付出更高的代价。

有人可能会想：那在 Prompt 里多掺点英文，是不是能帮模型锚定回来？

答案恰好相反。

在单次提问中混合两种语言往往让模型表现更糟，比单独使用其中任何一种都差，因为混合语言会引入相互冲突的内部表征，放大翻译错误，而不是修正它们。

发布于上海