karminski-牙医 25-11-03 08:00
微博认证:AI博主

跟大模型对话的时候用波兰语比用英语都有效?

来看这篇神奇的论文,论文为了研究哪种语言与大模型对话最有效,于是搞了个框架——ONERULER。来评估多语言情况下,长上下文语言模型的能力。

测试覆盖了26 种语言、6 个主流模型、4 种上下文长度(8k-128k tokens)。

直接来看结果:

首先测试得出结论:模型性能随上下文长度显著下降,这个也是大家都知道了,首先大模型随着上下文长度增长,召回能力也在变差,所以这个结论很正常

其次发现了:高资源语言(如英语、法语等,语料比较多的语言)在所有上下文长度上都保持较高准确率,而低资源语言(如斯瓦希里语、泰米尔语)在长上下文中性能急剧下降

重磅的来了:英语不是最佳语言,波兰语排名第一,在所有任务中,波兰语准确率 88.0% ,而英语是 83.9%,排在第六,中文只有 62.1%,排在倒数第4。尽管英语和中文在大多数模型的预训练数据中占主导地位,但是在长上下文任务中并不突出。

论文也研究了为什么会不好:
一个可能是对应语言的维基百科规模与性能有相关性(但貌似不全是这个问题)
还有可能是书写系统可能有影响(拉丁/西里尔字母 vs 表意文字)
最后中文错误主要是因为模型频繁错误地选择回答"none"(特别是Qwen,文中用的是Qwen2.5-72B.....我怀疑其实是召回本身出了问题,而不是中文训练效果不好)

不过总体而言,这个论文还是有点落后于时代了(今年3月提交的),还在用Qwen2.5研究,现在来看可能Qwen4没准都在训练了。

以及,说一个重点,现在的文生图/文生视频模型真的最好还是用英语,这些模型为了追求模型总体参数量小,他们的的文本嵌入/理解部分基本都是只用英语训练的,因此 prompt 用纯英语效果最好,用中文效果会差很多。

论文精读往期合集: github.com/karminski/teach-fish-to-swim
在线阅读: swim.kcores.com/Benchmarking-multilingual-long-context-language-models/

#ai创造营##ai生活指南#

发布于 日本