其实我不知道大家意识到没有,进入互联网时代以后,全世界所有的语言,都在快速的分析化。通俗的说,就是人与人之间的沟通主要依靠语言元素本身的意思和他们的组合方式,而并非语言元素的形态变化。
而人与机器的沟通是编程语言,不论机器还是高级语言,都有非常鲜明的分析语特征,函数,变量,类型都基本不存在形态变化,一个元素只表示有限的含义。
到了LLM出现的时代,Token则几乎完全等同于分析语中的morpheme(语素),所以很多LLM最终都会转变为汉语处理,因为汉语至少从先秦开始就是分析的。
可以说,屈折语因为学习成本低是人类文明的摇篮,但是最终分析语会是成熟文明的选择,至于是不是最终选择,可能取决于人的生物构造了
发布于 北京
