AI写作局限性探讨

The Atlantic的文章，AI难以掌握的人类技能The Human Skill That Eludes AI

为什么语言模型写不好文章？

在某种奇特的意义上，生成式人工智能的巅峰或许早在七年前的GPT-2时代就已出现。彼时，这个模型在科技圈之外几乎无人知晓，却极擅长给出出人意料的回答，充满创造力。诗人兼计算机科学家Katy Gero自2017年以来一直在研究语言模型，她告诉我：“你可以说，‘续写这个故事：这个男人决定去洗澡，’而GPT-2可能会写出，‘在淋浴中，他一边吃着柠檬，一边想着他的妻子。’如今的模型已经不会这样了。”

AI领域的领导者常常宣称，他们的模型在技术能力上已超越人类。这项技术可以预测蛋白质结构、生成逼真的视频、用一句提示构建应用程序。然而，这些高管和研究人员也坦言，他们尚未推出一个真正写得好的模型。OpenAI首席执行官Sam Altman曾预测，大语言模型很快将能够“解决气候问题、建立太空殖民地，并发现全部物理学规律”。但在去年10月接受经济学家Tyler Cowen采访时，他却猜测，即便是未来的GPT-6或GPT-7，最多也只能“生成一首真正诗人水平的还算可以的诗”。

如今的AI生成文本问题重重：隐喻空洞无物，“不是这个，而是那个”的句式泛滥，语气过分讨好——当然，还包括对我心爱的破折号的滥用。（直到去年11月发布的GPT-5.1，ChatGPT才终于能够稳定地按照指令避免使用这种标点。）我想弄清楚原因——为什么大语言模型明明“读过”数百年的文学经典，展现出惊人的涌现能力，却仍写不出一篇真正值得阅读的文章？

为此，我采访了多位业内人士：大语言模型公司的员工、AI数据供应商、学术界的计算机科学家，以及AI写作初创企业的从业者。（部分人因雇主限制而要求匿名。）我了解到，现代大语言模型的构建方式本身就与优秀写作相悖：它们被设计成循规蹈矩的“优等生”，总是力求给出“正确答案”。在许多方面，它们确实比GPT-2进步巨大，但也失去了当年那种松弛而迷人的特质。

大语言模型最初是“无差别阅读者”。在预训练阶段，它们吞噬近乎整个互联网——Reddit帖子、YouTube字幕、SEO垃圾内容——并将其压缩为统计模式。绝大多数写作并不优秀，但在这一阶段，数量比质量更重要。预训练教会AI语法规则和词语关联，使其能够进行所谓的“下一个词预测”：不断判断一个词的下一部分是什么。

随后，在后训练阶段，这些粗糙边缘会被打磨。此时，AI公司会为模型设定理想“人格”（如“乐于助人、诚实无害”），提供示例对话进行学习，并应用安全过滤机制以阻止非法请求。通过“基于人类反馈的强化学习”等方法，人类对AI输出进行打分，模型逐渐被引导去生成符合预期特质的回答。

AI研究是一门经验科学：人们可以验证哪些方法有效，并据此不断调整。但艺术却难以被规则化和量化。没有客观标准能证明聂鲁达的作品一定优于米斯特拉尔。初学写作者学习的是规范，而伟大作家则创造规范。一个被训练来“模仿品味”的模型，其能力终究有限。某种程度上，AI工程师和研究人员也明白这一点。尽管他们努力尝试自动化写作，许多人仍对优秀文学怀有敬意。当我询问他们最喜欢的书时，他们的神情会明显变得兴奋——有三人提到了科幻作家Ted Chiang，尽管他们也对他成为生成式AI的批评者感到些许失落。写作难以评估这一事实，并未阻止AI实验室继续尝试。他们反复思考一个问题：如果大语言模型无法写出震撼人心的文章或动人的诗歌，那么它们真的算“通用智能”吗？

于是，各大实验室尝试用各种标准评估AI写作。后训练团队会根据个人审美“感觉判断”模型输出，也会雇佣领域专家提供反馈。一家名为xAI的公司招聘“创意写作专家”，要求包括“小说销量超过5万册”和“获得Kirkus星级评论”（时薪从40美元起）。

我采访的两位AI写作评估者，描述了这一工作的荒诞之处。第一位是Scale AI的合同工。他说，为了将“语气”这种模糊概念转化为可量化标准，评分细则甚至包括“回答中最多使用两个感叹号”。他说：“很多时候，明明感觉B整体更好，但你却不得不选择A，因为它用了三个感叹号。”还有一次，他被要求根据“事实准确性”来评分同人小说。

第二位是一名曾与某前沿实验室技术团队合作的作家。该公司经常要求他拆解文学佳作的构成要素。“这完全无法用那种方式来分析，”他说。他举了英国十四行诗的例子：它们在形式上极为规范，但仅仅符合14行、抑扬格五音步等要求，并不能保证作品优秀。“即便是莎士比亚，在严格结构中也不断尝试突破、颠覆或重塑规则。我不知道区分机械写作与莎士比亚的关键是什么，但两者绝不会被混淆。”

那么，大语言模型是否注定永远只能写出稚嫩的文字？一种观点认为，这只是优先级问题。从某种程度上说，创造力与AI公司的其他目标是相冲突的。聊天机器人通常被训练去避免虚假信息、政治偏见、儿童性虐待内容、版权侵权等问题。同时，它们还要在诸如SWE-bench（编程）和GPQA（自然科学）等基准测试中表现出色，而这些指标深刻影响公众对公司竞争力的看法。如果大多数用户只是用ChatGPT来写商务邮件，那么加粗文字和简洁的要点或许正是他们所需要的。艾伦人工智能研究所的Nathan Lambert指出：“你越是强化这些特性，就越会压制创造力。”

当你要求一个模型既要成为杰出的文体大师，又要具备博士级数学能力，同时还必须严格符合“PG-13”级别的内容规范，它就会变得僵硬拘谨，如同一个在面试中生怕出错的紧张求职者。而GPT-2当年的那种奇思妙想，正是因为其不稳定性所带来的副产品。“如果你是像谷歌或OpenAI这样的公司，你需要的是能赚钱的聊天机器人。不会赚钱的，是那种‘怪异’的机器人，”Gero说。

我一度猜想，也许只要摆脱后训练的束缚、开发专门的写作模型，AI就能写出获奖级文学作品。但当我回想自己喜爱的作家时，这种想法似乎也不成立。

成熟的人类写作者在选择表达方式时，并不是在追求某种统一的“优秀写作标准”。最精彩的隐喻，往往源于作者独特的经历与知识背景。一个人的用词、引用和叙述，都体现着其不可复制的视角。作者风格，源自具体的人生经验。

而模型——尽管技术精湛、语法无误——却无法生活、无法感受、无法嗅闻、无法品尝、无法感知。它们无法将原始情感倾泻于纸面，也无法将抽象概念置入具体生动的场景。细读AI文本会发现，其隐喻往往诡异：它们会赋予星期以味道，让镜子出现“接缝”。它们似乎本能地回避生理性内容——不愿涉及血、性与死亡，即便只是比喻。用创意写作教师的话来说，它们缺乏“利害关系”。

尽管Yu对大语言模型自GPT-2以来的进步印象深刻，但他仍不会阅读完全由AI生成的小说。我问他，AI要独立写出一部优秀小说还缺少什么。他停顿了一下，说：“大多数人写的第一篇好作品都是自传性的。也许，你需要一个真正活过一生、甚至能够接近死亡的模型。”

大语言模型或许永远无法独立创作伟大文学。但这并不意味着它们不能帮助人类。最近，我尝试将AI用作编辑——不是为这篇文章（《大西洋月刊》的编辑都是人类），而是为我在Substack上的几篇随笔。我的理念是：由我提供文本与视角，AI负责反馈，帮助我更像我自己地写作。

首先，我将自己过往的文章及其优缺点反馈输入Claude，构建了一个基于个人风格的编辑标准。其中既有通用指标，也有个性化要求：例如，“是否体现你在硅谷作为‘内部人类学者’的视角？”以及“论点是否在前500字内出现？”我将这些指导输入Claude项目，并提醒它：“你不是共同作者，你无法感知。你的职责是帮助Jasmine写出最好的自己。”我不希望被“去技能化”，我告诉它，你唯一的任务是让我变得更聪明。

这个AI编辑已成为我写作流程中的重要一环。像任何读者一样，它也并非总是正确。我会注意不被其限制在单一风格中。但它确实加快了我的修改迭代速度，指出哪些地方未达到我自身的审美标准。“不要试图把结尾写成论点，把它写成一个场景，”它曾这样评论我一篇文章的结尾。被一个机器人否定多少有些令人尴尬，但我不得不承认，它说得对。我反复修改了四次。最终，Claude点头认可。#海外新鲜事#

发布于广东