人类语言与计算机代码差异研究

Nature子刊：人类语言为何不像计算机代码？

人类语言丰富而复杂，但从信息论角度看，同样的思想理论上可以用更压缩的格式传输——比如计算机使用的二进制代码。这引发了一个有趣的问题——为什么人们不像计算机那样，用0和1组成的数字系统交流呢？

德国萨尔布吕根的语言学家迈克尔·汉与美国加州大学欧文分校的理查德·富特雷尔共同构建了一个模型，解释人类语言为何呈现如今的模样。这一研究成果发表在《自然·人类行为》（Nature Human Behaviour）上。

全球约有7000种语言，尽管存在差异，但都服务于同一基本目的——通过词语组合成短语、短语排列成句子来传递意义。“这其实是一种非常复杂的结构，”迈克尔解释道，“由于自然界倾向于追求效率最大化，问一下大脑为何不像计算机那样以数字形式编码信息，是完全合理的。”
研究团队认为，答案在于人类语言建立在现实世界经验之上。“如果我用抽象术语‘gol’来指代一半猫一半狗的东西，没有人会明白——因为‘gol’根本不符合任何人的生活经验。”同样，将“cat”和“dog”混合成“gadcot”这样的混乱形式，对听者也是毫无意义的；而“cat and dog”立刻能被理解，因为这两种动物是人们熟悉的概念。

大脑在处理语言时，会不断与我们已有的世界知识互动。迈克尔将这一过程比作通勤，“走熟悉的路线时，驾驶几乎像自动驾驶，大脑清楚接下来会发生什么。走一条更短但不熟的路线反而更累，因为需要高度专注。”同样，说和理解二进制代码对双方都需要更多脑力，而自然语言让大脑不断预测接下来的内容，逐步缩小含义范围。

以德语短语“Die fünf grünen Autos”（五辆绿色汽车）为例：听到“Die”时，大脑开始缩小语法可能性；“fünf”暗示可数事物；“grünen”表明名词为复数且是绿色；直到最后的“Autos”，含义才完全确定。这种可预测模式让交流更顺畅。而颠倒词序的“Grünen fünf die Autos”则打破预期，使大脑难以构建意义。

汉总结道：“对我们大脑而言，选择看似更复杂的路径反而更容易。”尽管自然语言并非最大压缩的信息，但它给大脑带来的负担要小得多。

这些见解也可能为改进ChatGPT等大型语言模型提供启示——通过更好理解人类大脑如何处理语言，研究人员可设计出更符合自然交流模式的人工智能系统。
#热门微博# #科学新闻# #语言学# #人工智能#

发布于广东