[CL]《Task Decomposition for Efficient Annotation》N Gandhi, E Strubell [CMU] (2026)
在结构化数据标注领域,高质量标注的稀缺与高昂成本是一个悬而未决的难题。过去的方法受困于标注员在面对复杂任务(如同时识别边界和分类)时极高的推理负荷,本质原因是标注空间的复杂度随任务维度呈指数级增长,导致人工效率低下且模型自动化难以保证质量。
本文的核心洞见是:把标注过程重新看作对“中心实体”的追踪与属性填充。由此,将复杂任务拆解为“中心识别”(如定位位置)与“属性富化”(如确定边界和类型)的操作使问题得以解开,通过在第一步折叠搜索空间,显著降低了后续步骤的认知难度与输出空间复杂度。
这项工作真正留下的遗产是建立了一套量化标注推理负荷的数学框架。它为后来者打开的新门是允许在异构团队中按需分配任务(如让模型处理低负荷环节,专家处理核心识别),但尚未跨过的门槛是多级拆解可能引入的误差级联效应,以及如何在更宽泛的语义理解任务中定义“中心”。
arxiv.org/abs/2606.24734 #机器学习# #人工智能# #论文# #AI创造营#
发布于 北京
