谷歌的token数在1增加,国内字节的应该最高,也在增加。目前我们以单一市场的数据,还扛得住。
但是从长远看,英语世界可以产生的语料和场景总量是一定会高于中文世界的,即使未来使用80-90%生成式数据,海外的也会比我们多。
那么怎么破局呢?我也不知道。
但我们至少可以做到的是,和AI交流的时候,多基于事实去交流,AI做不对的,正经基于事实反馈给他。尽量少搞那种有毒语料。都是回旋镖,投喂的有毒语料越多,将来他真正成为工具时,误差就大。
发布于 北京
谷歌的token数在1增加,国内字节的应该最高,也在增加。目前我们以单一市场的数据,还扛得住。
但是从长远看,英语世界可以产生的语料和场景总量是一定会高于中文世界的,即使未来使用80-90%生成式数据,海外的也会比我们多。
那么怎么破局呢?我也不知道。
但我们至少可以做到的是,和AI交流的时候,多基于事实去交流,AI做不对的,正经基于事实反馈给他。尽量少搞那种有毒语料。都是回旋镖,投喂的有毒语料越多,将来他真正成为工具时,误差就大。