波兰语大模型对话效果最佳

跟大模型对话的时候用波兰语比用英语都有效？

来看这篇神奇的论文，论文为了研究哪种语言与大模型对话最有效，于是搞了个框架——ONERULER。来评估多语言情况下，长上下文语言模型的能力。

测试覆盖了26 种语言、6 个主流模型、4 种上下文长度（8k-128k tokens）。

直接来看结果：

首先测试得出结论：模型性能随上下文长度显著下降，这个也是大家都知道了，首先大模型随着上下文长度增长，召回能力也在变差，所以这个结论很正常

其次发现了：高资源语言（如英语、法语等，语料比较多的语言）在所有上下文长度上都保持较高准确率，而低资源语言（如斯瓦希里语、泰米尔语）在长上下文中性能急剧下降

重磅的来了：英语不是最佳语言，波兰语排名第一，在所有任务中，波兰语准确率 88.0% ，而英语是 83.9%，排在第六，中文只有 62.1%，排在倒数第4。尽管英语和中文在大多数模型的预训练数据中占主导地位，但是在长上下文任务中并不突出。

论文也研究了为什么会不好：
一个可能是对应语言的维基百科规模与性能有相关性（但貌似不全是这个问题）
还有可能是书写系统可能有影响（拉丁/西里尔字母 vs 表意文字）
最后中文错误主要是因为模型频繁错误地选择回答"none"（特别是Qwen，文中用的是Qwen2.5-72B.....我怀疑其实是召回本身出了问题，而不是中文训练效果不好）

不过总体而言，这个论文还是有点落后于时代了（今年3月提交的），还在用Qwen2.5研究，现在来看可能Qwen4没准都在训练了。

以及，说一个重点，现在的文生图/文生视频模型真的最好还是用英语，这些模型为了追求模型总体参数量小，他们的的文本嵌入/理解部分基本都是只用英语训练的，因此 prompt 用纯英语效果最好，用中文效果会差很多。

论文精读往期合集: github.com/karminski/teach-fish-to-swim
在线阅读: swim.kcores.com/Benchmarking-multilingual-long-context-language-models/

#ai创造营##ai生活指南#

发布于日本