[CL]《DramaBench: A Six-Dimensional Evaluation Framework for Drama Script Continuation》S Ma, Y Huang, Y Lin [University of Macau & University College London] (2025) 剧本创作不仅是文字的堆砌，更是情感与逻辑的精密博弈。长期以来，我们缺乏一个真正能衡量AI剧本创作能力的标尺。DramaB

[CL]《DramaBench: A Six-Dimensional Evaluation Framework for Drama Script Continuation》S Ma, Y Huang, Y Lin [University of Macau & University College London] (2025)

剧本创作不仅是文字的堆砌，更是情感与逻辑的精密博弈。长期以来，我们缺乏一个真正能衡量AI剧本创作能力的标尺。DramaBench的出现，填补了这一空白。

剧本创作的难点在于它要求模型在极具约束的格式下，同时处理角色性格、情节推进和情感张力。现有的评估框架往往过于通用，难以捕捉剧本特有的戏剧性结构。DramaBench作为首个大规模剧本续写评估框架，通过六个维度对AI的叙事能力进行了深度解剖。

这六个维度构成了剧本的灵魂：格式规范是基本功，确保剧本符合行业标准；叙事效率要求拒绝废话，每一行动作都要推动情节；角色一致性严防人设崩塌；情感深度关注角色的内心弧光与复杂性；逻辑连贯性是叙事的底线；而冲突处理则考验模型能否让剧情在张力中不断升级。

在方法论上，DramaBench摒弃了让AI直接主观打分的传统做法，转而采用一种标注加统计的创新模式。它让大模型充当结构化数据标注员，提取具体的标签，如驱动型节拍或冗余型节拍，再通过统计公式转化为客观指标。这种方式将主观的文学评价转化为可量化、可复现的科学实验。

测评结果揭示了一个有趣的现象：目前没有全能冠军。GPT-5.2在综合鲁棒性上表现出色，尤其在叙事效率和逻辑连贯上领先；Qwen3-Max则展现出极强的情感捕捉能力，能写出更具深度的情感弧光；而Gemini-3-Pro在处理戏剧冲突、推动情节升级方面更胜一筹。这说明AI的创作能力正在向专业化方向分化。

一个值得关注的发现是，格式规范已成为AI的标配。所有主流模型都能近乎完美地掌握剧本格式。然而，逻辑连贯性依然是区分模型梯队的关键指标。逻辑错误率从2%到5%不等，这细微的差距往往决定了剧本是让人入戏的杰作，还是让人出戏的草稿。

创作的本质是处理冲突。研究显示，顶尖模型已经学会了戏剧创作中的升级原则，即不断强化冲突而非过早解决冲突。这种对戏剧结构的理解，标志着AI正在从简单的对话生成器进化为具备结构化思维的创作者。

DramaBench不仅是一份榜单，它更像是一份AI创作的体检报告。通过对10850个错误的细致分类，它为模型的迭代指明了方向。当AI学会了如何像编剧一样思考冲突、逻辑与情感，人类的创意表达将迎来一个全新的共创时代。

原文链接：arxiv.org/abs/2512.19012

发布于北京