【AI视频丨Token为什么叫“词元”】
3月25日,全国科学技术名词审定委员会发布公告,将人工智能领域Token的中文名定为“词元”,面向全社会发布试用。
“词元”(Token)是人工智能时代智能设备中信息存储、处理和交换的具有一定语义的基本符号单元,特别是在人工智能大模型中作为模型处理和交换信息的最小单位。
“词元”的词源
Token一词源于古英语tācen,意为“符号”或“标记”。在语言模型中,Token是文本经过切分或字节级编码后得到的最小离散单元。它既可能是人类语言意义上的词串、单个词,也可能是词根、词缀、子词或单个字符。语言模型通过对Token序列建模,展现出一定的智能水平。
在“词元”这一定名中,“词”点明其在语言场景下的根源,体现出Token与表达对象语义的密切关联;“元” 传达出“基本单元”之意,与 “元素”等术语中的“元”保持一致的语义脉络。
“词元”一词可以将“作为语言基本语义单元”这一最初本质清晰表达出来,更贴合其在人工智能中的初始角色。
“词元”的变化
随着大模型从纯文本走向多模态(图像、语音、视频等),Token的所指已经扩展。图像被切分为“图像块”并映射为嵌入序列,语音片段可以被量化编码为离散单元,这些单元在多模态模型中同样被称为Token,主要建模手段仍为序列模型。此时“词元”中的“词”在这里超越了人类语言意义上的“词”,却能暗合术语命名中普遍存在的类比思维——将非文本模态的离散基本单元,也视作“广义的词”。这种用法与“词云”(word cloud)类似,虽由文本衍生,但已成为人工智能领域通用术语。“词元”在跨模态场景中承载了“离散基本单元”的语义,这种语义普遍存在于所有模态之中。
在中文文献、技术文档及学术交流中,“词元”作为描述大模型中Token的一种选择,逐渐被学术界很多学者所认同。
Token是模型将数据映射为离散符号序列的基本单位,本身并不携带智能,只是承载信息的载体;它与“嵌入”“注意力”“隐状态”等术语并列时,保持了风格一致性;它符合中文“二字词”偏好,表述简洁,易于传播。
为什么要审定名词
科学技术名词是科学知识传播和交流的媒介和工具。概念明确、指称规范的科技名词,能够快速有效地传播科学知识,避免因对理解不同而发生误解。
“词元”的定名准确捕捉了其在人工智能语言模型中作为“基本离散符号单元”的本质,又可以通过类比自然延伸至多模态领域。
“词元”作为人工智能领域Token的中文名,符合单义性、科学性、简明性、协调性等科技名词审定原则,全国各科研、教学、生产经营及新闻出版单位可推广使用。
全国科学技术名词审定委员会于1985年经国务院批准成立,是由科学技术部和中国科学院共建,代表国家审定、公布科技名词的权威性机构。同时科技部和中国科学院共同聘请了国家相关部门负责人和一百余名各学科领域著名学者、专家担任副主任委员、常务委员和委员。
此次推荐“词元”作为Token中文名的全国计算机科学技术名词审定委员会,是全国科学技术名词审定委员会的学科名词审定专委会之一。
简而言之,“词元”审定后,社会各界都有了统一的表述,避免了不必要的歧义和混乱,提高了效率。 http://t.cn/AXIZDNT6
