[CL]《DramaBench: A Six-Dimensional Evaluation Framework for Drama Script Continuation》S Ma, Y Huang, Y Lin [University of Macau & University College London] (2025)
剧本创作不仅是文字的堆砌,更是情感与逻辑的精密博弈。长期以来,我们缺乏一个真正能衡量AI剧本创作能力的标尺。DramaBench的出现,填补了这一空白。
剧本创作的难点在于它要求模型在极具约束的格式下,同时处理角色性格、情节推进和情感张力。现有的评估框架往往过于通用,难以捕捉剧本特有的戏剧性结构。DramaBench作为首个大规模剧本续写评估框架,通过六个维度对AI的叙事能力进行了深度解剖。
这六个维度构成了剧本的灵魂:格式规范是基本功,确保剧本符合行业标准;叙事效率要求拒绝废话,每一行动作都要推动情节;角色一致性严防人设崩塌;情感深度关注角色的内心弧光与复杂性;逻辑连贯性是叙事的底线;而冲突处理则考验模型能否让剧情在张力中不断升级。
在方法论上,DramaBench摒弃了让AI直接主观打分的传统做法,转而采用一种标注加统计的创新模式。它让大模型充当结构化数据标注员,提取具体的标签,如驱动型节拍或冗余型节拍,再通过统计公式转化为客观指标。这种方式将主观的文学评价转化为可量化、可复现的科学实验。
测评结果揭示了一个有趣的现象:目前没有全能冠军。GPT-5.2在综合鲁棒性上表现出色,尤其在叙事效率和逻辑连贯上领先;Qwen3-Max则展现出极强的情感捕捉能力,能写出更具深度的情感弧光;而Gemini-3-Pro在处理戏剧冲突、推动情节升级方面更胜一筹。这说明AI的创作能力正在向专业化方向分化。
一个值得关注的发现是,格式规范已成为AI的标配。所有主流模型都能近乎完美地掌握剧本格式。然而,逻辑连贯性依然是区分模型梯队的关键指标。逻辑错误率从2%到5%不等,这细微的差距往往决定了剧本是让人入戏的杰作,还是让人出戏的草稿。
创作的本质是处理冲突。研究显示,顶尖模型已经学会了戏剧创作中的升级原则,即不断强化冲突而非过早解决冲突。这种对戏剧结构的理解,标志着AI正在从简单的对话生成器进化为具备结构化思维的创作者。
DramaBench不仅是一份榜单,它更像是一份AI创作的体检报告。通过对10850个错误的细致分类,它为模型的迭代指明了方向。当AI学会了如何像编剧一样思考冲突、逻辑与情感,人类的创意表达将迎来一个全新的共创时代。
原文链接:arxiv.org/abs/2512.19012
