中英语料对AI影响

谷歌的token数在1增加，国内字节的应该最高，也在增加。目前我们以单一市场的数据，还扛得住。
但是从长远看，英语世界可以产生的语料和场景总量是一定会高于中文世界的，即使未来使用80-90%生成式数据，海外的也会比我们多。
那么怎么破局呢？我也不知道。
但我们至少可以做到的是，和AI交流的时候，多基于事实去交流，AI做不对的，正经基于事实反馈给他。尽量少搞那种有毒语料。都是回旋镖，投喂的有毒语料越多，将来他真正成为工具时，误差就大。

发布于北京