哈勃观察员
26-02-24 10:38 微博认证:科学科普博主 头条文章作者

Nature子刊:人类语言为何不像计算机代码?

人类语言丰富而复杂,但从信息论角度看,同样的思想理论上可以用更压缩的格式传输——比如计算机使用的二进制代码。这引发了一个有趣的问题——为什么人们不像计算机那样,用0和1组成的数字系统交流呢?

德国萨尔布吕根的语言学家迈克尔·汉与美国加州大学欧文分校的理查德·富特雷尔共同构建了一个模型,解释人类语言为何呈现如今的模样。这一研究成果发表在《自然·人类行为》(Nature Human Behaviour)上。

全球约有7000种语言,尽管存在差异,但都服务于同一基本目的——通过词语组合成短语、短语排列成句子来传递意义。“这其实是一种非常复杂的结构,”迈克尔解释道,“由于自然界倾向于追求效率最大化,问一下大脑为何不像计算机那样以数字形式编码信息,是完全合理的。”
研究团队认为,答案在于人类语言建立在现实世界经验之上。“如果我用抽象术语‘gol’来指代一半猫一半狗的东西,没有人会明白——因为‘gol’根本不符合任何人的生活经验。”同样,将“cat”和“dog”混合成“gadcot”这样的混乱形式,对听者也是毫无意义的;而“cat and dog”立刻能被理解,因为这两种动物是人们熟悉的概念。

大脑在处理语言时,会不断与我们已有的世界知识互动。迈克尔将这一过程比作通勤,“走熟悉的路线时,驾驶几乎像自动驾驶,大脑清楚接下来会发生什么。走一条更短但不熟的路线反而更累,因为需要高度专注。”同样,说和理解二进制代码对双方都需要更多脑力,而自然语言让大脑不断预测接下来的内容,逐步缩小含义范围。

以德语短语“Die fünf grünen Autos”(五辆绿色汽车)为例:听到“Die”时,大脑开始缩小语法可能性;“fünf”暗示可数事物;“grünen”表明名词为复数且是绿色;直到最后的“Autos”,含义才完全确定。这种可预测模式让交流更顺畅。而颠倒词序的“Grünen fünf die Autos”则打破预期,使大脑难以构建意义。

汉总结道:“对我们大脑而言,选择看似更复杂的路径反而更容易。”尽管自然语言并非最大压缩的信息,但它给大脑带来的负担要小得多。

这些见解也可能为改进ChatGPT等大型语言模型提供启示——通过更好理解人类大脑如何处理语言,研究人员可设计出更符合自然交流模式的人工智能系统。
#热门微博# #科学新闻# #语言学# #人工智能#

发布于 广东