#token是什么意思#
最近 Token 的爆火,大家也开始好奇,“ Token ”究竟是啥呢?
先问大家一个问题,“40万 Token = 40万字?”大家带着问题来看,会更好理解。
日常使用大模型中,模型会有一个助手—“ Tokenizer (分词器)”。
当大模型接受到我们的信息后,让 Tokenizer 将句子切成很多小块,而切出来的一小块,就叫做 Token 。
Token 可以是一个字,可以是一个词,也可以是一个标点符号。
网站“ Tiktokenizer ”可以计算 Token 数。
举个例子,“二阶变量会打篮球、唱、跳、 Rap ”
这句话中有 12 个 Token ,给大家拆分一下:
“ 二 ”,“阶”,“变量”,“会”,“打”,“篮球”,“ 、 ”,“唱”,“ 、 ”,“ 、”,“跳”,“ Rap ”共计 12 个 Token 。
而在不同的模型中, Token 计算方法也不相同,上面我是用的是 gpt-4o 。
换用 Deepseek-R1 ,可以看到:
“二阶”是一个 Token,“ R ” 是一个 Token。
所以 40万 Token 并不等于 40万字。
用大白话来说, Token 就是 文字的计数单位,各个大模型厂商按照消耗 Token 数,来定价收费。
发布于 广东
