《纽约客》:《走进训练人工智能、耗尽电网的数据中心》第四部分
水资源、电力和土地都是稀缺资源,但对于数据中心而言,正如其名所示,最有价值的商品是数据。Claude 人工智能模型是通过 LibGen 的海量盗版电子书语料库进行训练的,这些书籍可通过种子下载。九月,Claude 的开发商 Anthropic 同意向这些书籍的版权持有者支付 15 亿美元赔偿金,相当于每次侵权赔偿约 3000 美元——这是历史上规模最大的集体版权侵权和解案(本刊包括我在内的多名人员均为索赔方)。针对 OpenAI 和英伟达的类似诉讼仍在审理中。
微软并不清楚客户向其数据中心上传的内容——这些数据属于商业机密。在人工智能时代,版权侵权的规模难以估量,但据我推测,其严重程度足以让 Napster 音乐共享平台看起来像是小规模的磁带交换。当前人工智能开发的通行做法是:吸纳所有可获取的网络数据——包括音频、视频、几乎全部英文出版物以及超过 30 亿个网页——然后交由律师团队处理由此产生的法律纠纷。
但如今已有数据短缺的讨论。据估计,被索引的互联网上约有四百万亿单词,但正如 OpenAI 联合创始人安德烈·卡帕西所言,其中大部分是"彻头彻尾的垃圾"。高质量文本更难寻觅。研究人员表示,若趋势持续,人工智能开发者可能在 2026 至 2032 年间耗尽可用的人类文本供应。由于 AI 聊天机器人只是重复利用现有作品,它们依赖陈词滥调,表达方式很快变得陈旧。想从它们那里获得新颖优质的文字很难——我试过。
微软的 Priest 告诉我,她并不担心数据耗尽的问题:文本之外还有更广阔的天地,AI 开发者们才刚刚开始探索。下一个前沿是"世界模型"数据,这些数据将用于训练机器人。视频流和空间数据将源源不断地输入数据中心,用以开发自主机器人。英伟达的黄仁勋也想进军这个市场,去年曾带着两台移动机器人登台亮相。在洛杉矶,我曾驻足观望过无人驾驶汽车,最近还偶遇过一辆自动送货小车。但直到最近去北京时,我才真正明白机器人革命将会是什么模样。
在中国,机器人无处不在。我在商场里看到它们整理货架、清扫地面。当我在酒店房间点餐时,送餐的是一个两英尺高的轮式垃圾桶造型机器人,发出孩童般的声音。我困惑地打开门,发现它正站在我面前,身上套着仿管家制服,用普通话叽叽喳喳地说着话。机器人前部的舱门突然打开,滑出一盘面条。机器又叽叽喳喳叫了几声。我取走食物后舱门关闭,机器人滚轮转动着离开了。我手捧餐盘呆立良久,思索着自己是否还能再和真人说上话。
发布于 湖北
