GPT-5 使用了成人网站的数据训练?
看到了个整大活的文章,大家都知道OpenAI在社区的催促下,终于不情不愿的放出了 GPT-OSS 系列开放权重模型,于是就有博主根据GPT-OSS大模型分析了下词元嵌入,发现了大瓜,我给大家尽可能用大家都看得懂的描述下是怎么发现的:
首先,大模型处理文本都要进行向量嵌入,即把文本按照自己的词汇表转换为向量(毕竟计算机只能计算数值)比如 :
- "猫" 可能被表示为向量 [0.2, 0.8, -0.4]
- "狗" 可能被表示为向量 [0.3, 0.7, -0.5] (因为它和猫很像,所以坐标很接近)
- "香蕉" 可能被表示为向量 [-0.9, 0.1, 0.2] (因为它和猫、狗不像,所以坐标离得远)
然后,我们就可以计算词汇的欧几里得范数 (Euclidean Norm,L2 Norm),计算方式为:对于一个向量 V = [x1, x2, x3, ...],它的欧几里得范数范数就是 sqrt(x1² + x2² + x3² + ...)。
数学好的同学一眼就能看出,其实这个是在计算这个向量在多维空间中,从多维空间原点 [0, 0, 0, ...] 指向它所在坐标点的直线距离。
那么词汇的欧几里得范数有什么用呢?因为在模型训练过程中,每个词元的向量(嵌入)都会被不断调整,因此欧几里得范数能一定程度上反映出该词汇的"关注度"或"信息量"
我做个比喻的话,大家家里的纸巾都是随便放的(桌子上,沙发上,茶几上)。但是药品肯定放在比较远的特定位置,防止家里的小朋友碰到,而挂画肯定也是精心挑选的地方。这些特殊的东西跟海量词汇表中欧几里得范数突兀的词汇是一个道理,即表明这些词汇是精心训练出来的,而不是大模型自己想出来的结果。比如你让大模型想一个水果社区的名称, 苹果社区草莓社区都很正常,但是草榴社区一旦出来,你就知道这个大模型不简单了。
那么真的是这样吗?验证方法也很简单,只需要问问大模型就知道了,于是作者进行了一项名为“成员推理”的实验。他们向GPT-5和GPT-oss模型查询这些高范数词元的含义。模型能够正确识别这些词元的语言,并能理解其大致含义,尽管有时会淡化其不适当的性质。例如,模型知道“毛片免费观看”是与观看视频相关的中文。但这的确就能证明大模型训练数据中肯定有这些东西了....
话说回来,考虑到这些欧几里得范数高的离谱的词汇大部分都是中文,我怀疑OpenAI应该被某个没认真清洗数据的数据供应商坑了....
原文地址:fi-le.net/oss/
#ai创造营##ai生活指南#
