二阶变量 26-03-21 10:40

#token是什么意思#

最近 Token 的爆火,大家也开始好奇,“ Token ”究竟是啥呢?

先问大家一个问题,“40万 Token = 40万字?”大家带着问题来看,会更好理解。

日常使用大模型中,模型会有一个助手—“ Tokenizer (分词器)”。

当大模型接受到我们的信息后,让 Tokenizer 将句子切成很多小块,而切出来的一小块,就叫做 Token 。

Token 可以是一个字,可以是一个词,也可以是一个标点符号。

网站“ Tiktokenizer ”可以计算 Token 数。

举个例子,“二阶变量会打篮球、唱、跳、 Rap ”

这句话中有 12 个 Token ,给大家拆分一下:

“ 二 ”,“阶”,“变量”,“会”,“打”,“篮球”,“ 、 ”,“唱”,“ 、 ”,“ 、”,“跳”,“ Rap ”共计 12 个 Token 。

而在不同的模型中, Token 计算方法也不相同,上面我是用的是 gpt-4o 。

换用 Deepseek-R1 ,可以看到:

“二阶”是一个 Token,“ R ” 是一个 Token。

所以 40万 Token 并不等于 40万字。

用大白话来说, Token 就是 文字的计数单位,各个大模型厂商按照消耗 Token 数,来定价收费。

发布于 广东