大模型公司窃取用户数据

大模型公司声称不使用用户数据进行AI训练，这其实是个文字游戏。这样的声明就像隔壁老王说“你出放心出海当船员，你的漂亮老婆放我家，我绝不动他一手指头。”

这种声明可信吗？有用吗？大模型公司都是无赖，anthropic和openai这些货花钱在网上买二手书和电子盗版书对模型训练，这种事都能干得出来，会不碰用户数据？

就算他们不直接使用你的原始数据，也会对你的数据进行处理，脱敏个人信息以后进行切片，分块或格式化放入数据库待使用。你点那个关闭训练毫无意义，那个按钮纯是心理安慰。

你们知道claude是怎么发家的，在claude3时代非常弱智，但很便宜，几乎随便用，专注于吸引IT专业人员。比如我在前几年大量使用claude进行编程，需要带着AI完成软件工程项目，这个过程就是在训练AI。全球的IT人员集中使用claude，才有了它今天辉煌的地位。

我有自己的AI服务器，在后台，你们上传的任何数据，每一个对话，我都能看到，完全透明的一样。

当你上传了结构化数据，行业内部资料，AI公司会定期扫描，这都是AI自动化完成的，只要发现，马上就会成的AI公司的行业语料数据，绝对没跑。我不是针对谁，我是说所有的AI公司都用各种方式窃取用户数据！

科技公司都用户数据的饥渴程度，外行是想象不到的。

你去看看，有哪家AI公司的历史对话栏有一键清除所有历史？没有，你对话多了必须一条一条删除，你也就懒得删除了。这会导致存储爆炸式的增长，但他们为什么非要选择一个让成本增加的方式？因为数据远比存储值钱。就是在给你制造删除数据的障碍,方便后台留存数据。

就算你提供的数据不是结构化的行业知识，每一个对话都是人类思维结构，都值得被格式化以后成为数据集，它也是有巨大商业价值的。

发布于北京