爱可可-爱生活
26-06-26 05:09 微博认证:AI博主 2025微博新锐新知博主

[AI]《Autodata: An agentic data scientist to create high quality synthetic data》I Kulikov, C Whitehouse, T Wu, Y Nie… [FAIR at Meta] (2026)

在合成数据生成领域,如何构建既具挑战性又适配模型学习阶段的高质量数据是一个悬而未决的难题。过去的方法受困于静态提示或简单的过滤机制,本质原因是它们缺乏对模型实际表现的闭环反馈,导致生成的数据要么对模型太简单(无学习增益),要么太难(无法提供有效梯度)。

本文的核心洞见是:把数据生成重新看作一个由“AI数据科学家”主导的迭代实验过程。由此,Agentic Self-Instruct 这一关键操作使问题得以解开:它通过“弱求解器”与“强求解器”的性能差异作为导航信号,驱动代理不断反思失败案例并重写任务指令,直到打磨出处于模型认知边界、能精准诱发学习行为的“黄金数据”。

这项工作真正留下的遗产是证明了推理侧计算量(Inference Compute)可以有效转化为训练侧的数据质量。它为后来者打开的新门是通过元优化(Meta-Optimization)让数据生成代理实现自我进化,但尚未跨过的门槛是如何在完全脱离人类反馈的情况下,确保代理在追求“难度”时不会陷入逻辑幻觉或偏离真实世界的知识分布。

arxiv.org/abs/2606.25996 #机器学习# #人工智能# #论文# #AI创造营#

发布于 北京