你用中文去问 ChatGPT、Gemini、Claude 等海外顶尖模型问题时,实际上这些模型会自动降智。
《经济学人》引用了大量学术论文和基准测试数据,认为『大语言模型的能力,几乎是按语言分配的,而分配方式极不均匀。』
2025 年 10 月的一篇预印本论文对多个模型做了系统比对,发现非英语任务的准确率比英语低 12 到 29 个百分点。
最极端的情况下,一个能答对约 75% 英文问题的模型,换一种语言,得分直接暴跌至 22.6%。
语种鸿沟不是体感上的差一点,在某些模型和语言的组合下,它是断崖式的能力坍塌。
后续的实验证明,这条鸿沟并没有随着模型迭代而自动收窄。换句话说,模型虽然一直在变强,但变强的红利大部分被英语吃掉了。
顶尖的海外 AI 模型面对非英语提问时,内部会先用英语检索事实,再把答案翻译成目标语言输出。这个先想英文、再翻译的中间环节本身就是错误的温床。
问题不只出在训练数据的量上,更出在模型切分文本的底层机制上。以 GPT-5 为例,《世界人权宣言》第一句话,英文只需 36 个 Token,印地语要 47 个,中文要 62 个,约鲁巴语飙到 132 个。
Token 数量直接关联 API 调用成本 —— 同样的 Prompt,非英语输入最高要付五倍的钱。这意味着最需要大模型服务的群体,反而要为更差的服务付出更高的代价。
有人可能会想:那在 Prompt 里多掺点英文,是不是能帮模型锚定回来?
答案恰好相反。
在单次提问中混合两种语言往往让模型表现更糟,比单独使用其中任何一种都差,因为混合语言会引入相互冲突的内部表征,放大翻译错误,而不是修正它们。
发布于 上海
