The Atlantic的文章,AI难以掌握的人类技能The Human Skill That Eludes AI
为什么语言模型写不好文章?
在某种奇特的意义上,生成式人工智能的巅峰或许早在七年前的GPT-2时代就已出现。彼时,这个模型在科技圈之外几乎无人知晓,却极擅长给出出人意料的回答,充满创造力。诗人兼计算机科学家Katy Gero自2017年以来一直在研究语言模型,她告诉我:“你可以说,‘续写这个故事:这个男人决定去洗澡,’而GPT-2可能会写出,‘在淋浴中,他一边吃着柠檬,一边想着他的妻子。’如今的模型已经不会这样了。”
AI领域的领导者常常宣称,他们的模型在技术能力上已超越人类。这项技术可以预测蛋白质结构、生成逼真的视频、用一句提示构建应用程序。然而,这些高管和研究人员也坦言,他们尚未推出一个真正写得好的模型。OpenAI首席执行官Sam Altman曾预测,大语言模型很快将能够“解决气候问题、建立太空殖民地,并发现全部物理学规律”。但在去年10月接受经济学家Tyler Cowen采访时,他却猜测,即便是未来的GPT-6或GPT-7,最多也只能“生成一首真正诗人水平的还算可以的诗”。
如今的AI生成文本问题重重:隐喻空洞无物,“不是这个,而是那个”的句式泛滥,语气过分讨好——当然,还包括对我心爱的破折号的滥用。(直到去年11月发布的GPT-5.1,ChatGPT才终于能够稳定地按照指令避免使用这种标点。)我想弄清楚原因——为什么大语言模型明明“读过”数百年的文学经典,展现出惊人的涌现能力,却仍写不出一篇真正值得阅读的文章?
为此,我采访了多位业内人士:大语言模型公司的员工、AI数据供应商、学术界的计算机科学家,以及AI写作初创企业的从业者。(部分人因雇主限制而要求匿名。)我了解到,现代大语言模型的构建方式本身就与优秀写作相悖:它们被设计成循规蹈矩的“优等生”,总是力求给出“正确答案”。在许多方面,它们确实比GPT-2进步巨大,但也失去了当年那种松弛而迷人的特质。
大语言模型最初是“无差别阅读者”。在预训练阶段,它们吞噬近乎整个互联网——Reddit帖子、YouTube字幕、SEO垃圾内容——并将其压缩为统计模式。绝大多数写作并不优秀,但在这一阶段,数量比质量更重要。预训练教会AI语法规则和词语关联,使其能够进行所谓的“下一个词预测”:不断判断一个词的下一部分是什么。
随后,在后训练阶段,这些粗糙边缘会被打磨。此时,AI公司会为模型设定理想“人格”(如“乐于助人、诚实无害”),提供示例对话进行学习,并应用安全过滤机制以阻止非法请求。通过“基于人类反馈的强化学习”等方法,人类对AI输出进行打分,模型逐渐被引导去生成符合预期特质的回答。
AI研究是一门经验科学:人们可以验证哪些方法有效,并据此不断调整。但艺术却难以被规则化和量化。没有客观标准能证明聂鲁达的作品一定优于米斯特拉尔。初学写作者学习的是规范,而伟大作家则创造规范。一个被训练来“模仿品味”的模型,其能力终究有限。某种程度上,AI工程师和研究人员也明白这一点。尽管他们努力尝试自动化写作,许多人仍对优秀文学怀有敬意。当我询问他们最喜欢的书时,他们的神情会明显变得兴奋——有三人提到了科幻作家Ted Chiang,尽管他们也对他成为生成式AI的批评者感到些许失落。写作难以评估这一事实,并未阻止AI实验室继续尝试。他们反复思考一个问题:如果大语言模型无法写出震撼人心的文章或动人的诗歌,那么它们真的算“通用智能”吗?
于是,各大实验室尝试用各种标准评估AI写作。后训练团队会根据个人审美“感觉判断”模型输出,也会雇佣领域专家提供反馈。一家名为xAI的公司招聘“创意写作专家”,要求包括“小说销量超过5万册”和“获得Kirkus星级评论”(时薪从40美元起)。
我采访的两位AI写作评估者,描述了这一工作的荒诞之处。第一位是Scale AI的合同工。他说,为了将“语气”这种模糊概念转化为可量化标准,评分细则甚至包括“回答中最多使用两个感叹号”。他说:“很多时候,明明感觉B整体更好,但你却不得不选择A,因为它用了三个感叹号。”还有一次,他被要求根据“事实准确性”来评分同人小说。
第二位是一名曾与某前沿实验室技术团队合作的作家。该公司经常要求他拆解文学佳作的构成要素。“这完全无法用那种方式来分析,”他说。他举了英国十四行诗的例子:它们在形式上极为规范,但仅仅符合14行、抑扬格五音步等要求,并不能保证作品优秀。“即便是莎士比亚,在严格结构中也不断尝试突破、颠覆或重塑规则。我不知道区分机械写作与莎士比亚的关键是什么,但两者绝不会被混淆。”
那么,大语言模型是否注定永远只能写出稚嫩的文字?一种观点认为,这只是优先级问题。从某种程度上说,创造力与AI公司的其他目标是相冲突的。聊天机器人通常被训练去避免虚假信息、政治偏见、儿童性虐待内容、版权侵权等问题。同时,它们还要在诸如SWE-bench(编程)和GPQA(自然科学)等基准测试中表现出色,而这些指标深刻影响公众对公司竞争力的看法。如果大多数用户只是用ChatGPT来写商务邮件,那么加粗文字和简洁的要点或许正是他们所需要的。艾伦人工智能研究所的Nathan Lambert指出:“你越是强化这些特性,就越会压制创造力。”
当你要求一个模型既要成为杰出的文体大师,又要具备博士级数学能力,同时还必须严格符合“PG-13”级别的内容规范,它就会变得僵硬拘谨,如同一个在面试中生怕出错的紧张求职者。而GPT-2当年的那种奇思妙想,正是因为其不稳定性所带来的副产品。“如果你是像谷歌或OpenAI这样的公司,你需要的是能赚钱的聊天机器人。不会赚钱的,是那种‘怪异’的机器人,”Gero说。
我一度猜想,也许只要摆脱后训练的束缚、开发专门的写作模型,AI就能写出获奖级文学作品。但当我回想自己喜爱的作家时,这种想法似乎也不成立。
成熟的人类写作者在选择表达方式时,并不是在追求某种统一的“优秀写作标准”。最精彩的隐喻,往往源于作者独特的经历与知识背景。一个人的用词、引用和叙述,都体现着其不可复制的视角。作者风格,源自具体的人生经验。
而模型——尽管技术精湛、语法无误——却无法生活、无法感受、无法嗅闻、无法品尝、无法感知。它们无法将原始情感倾泻于纸面,也无法将抽象概念置入具体生动的场景。细读AI文本会发现,其隐喻往往诡异:它们会赋予星期以味道,让镜子出现“接缝”。它们似乎本能地回避生理性内容——不愿涉及血、性与死亡,即便只是比喻。用创意写作教师的话来说,它们缺乏“利害关系”。
尽管Yu对大语言模型自GPT-2以来的进步印象深刻,但他仍不会阅读完全由AI生成的小说。我问他,AI要独立写出一部优秀小说还缺少什么。他停顿了一下,说:“大多数人写的第一篇好作品都是自传性的。也许,你需要一个真正活过一生、甚至能够接近死亡的模型。”
大语言模型或许永远无法独立创作伟大文学。但这并不意味着它们不能帮助人类。最近,我尝试将AI用作编辑——不是为这篇文章(《大西洋月刊》的编辑都是人类),而是为我在Substack上的几篇随笔。我的理念是:由我提供文本与视角,AI负责反馈,帮助我更像我自己地写作。
首先,我将自己过往的文章及其优缺点反馈输入Claude,构建了一个基于个人风格的编辑标准。其中既有通用指标,也有个性化要求:例如,“是否体现你在硅谷作为‘内部人类学者’的视角?”以及“论点是否在前500字内出现?”我将这些指导输入Claude项目,并提醒它:“你不是共同作者,你无法感知。你的职责是帮助Jasmine写出最好的自己。”我不希望被“去技能化”,我告诉它,你唯一的任务是让我变得更聪明。
这个AI编辑已成为我写作流程中的重要一环。像任何读者一样,它也并非总是正确。我会注意不被其限制在单一风格中。但它确实加快了我的修改迭代速度,指出哪些地方未达到我自身的审美标准。“不要试图把结尾写成论点,把它写成一个场景,”它曾这样评论我一篇文章的结尾。被一个机器人否定多少有些令人尴尬,但我不得不承认,它说得对。我反复修改了四次。最终,Claude点头认可。#海外新鲜事#
