AI总监谈长期代理

Google Cloud AI 总监分享了他对 Loop Engineering 这个概念的看法，同时还专门录制了一个视频进行了演示和解释。

他的观点是：
大家看到的大多数代理演示，往往都是无状态的。你问一个问题，模型给出答案，然后对话就结束了。即使演示持续10到15分钟，它仍然活在单个上下文窗口里。这个窗口会被填满，然后被丢弃。

长期运行代理恰恰相反。它是一种能够跨会话保持状态的代理，可以在更长的时间跨度内运作。我们说的是几小时、几天，甚至在某些情况下是几周。你的工作单元不再是一个提示词，而是一个完整的工作流程。代理本身拥有并管理整个多步骤流程，从头到尾。

要做到长期运行必须满足三个条件。

第一，代理必须真正能够“休眠”。这就像人需要真正能够睡觉一样。我们以前可能用过的一些方法，比如主动轮询，在这里不需要，你也不会想要。你不希望有一个阻塞线程一直坐在那里消耗计算资源。代理还必须能够保持休眠状态，直到某种外部事件唤醒它。这可能是一个 webhook，可能是一个定时任务，可能是人工审批、某种人类交互，或者是工具回调。

第二件必须满足的事情是，每一步都必须有检查点。我们谈到很多东西是无状态的，但在这种情况下，状态必须在每次转换时持久化保存。即使运行所有这些的容器崩溃了，你仍然希望服务器能够重新部署，而且人类可以花任意天数来完成某个操作。比如说，如果我们在进行员工入职流程，或者在处理贷款申请，无论某人实际完成一个操作需要多少天，代理都需要能够从它停下的地方准确地继续，不会出现幻觉记忆或从未发生过的中间步骤。

第三件重要的事是，代理不能给自己的工作打分。我们见过很多人使用代理的方式是，用同一个代理来编写代码，然后再用同一个代理来审查代码。我觉得这种方法需要更多细致的考量。来自多个实验室（包括 Anthropic）的研究已经相当明确地表明，当代理评估自己的输出时，它会持续高估质量。它几乎是对结果质量过度自信了。

所以，你不希望质量平庸。这种设置下的最佳实践，实际上是采用三代理架构。你需要一个规划者（planner），一个生成器（generator），以及一个独立的评估者（evaluator），它可以测试你的实际结果。

这里有一个视觉展示，展示长期运行代理实际上是什么样子。如果我们把这三个理念结合在一起：持久化状态、事件驱动的休眠机制和独立评估，你就不再只是拥有一个聊天机器人了。你拥有的是能够完成多日工作流程、多周工作流程的东西。

我们生活中有太多场景，我们在与企业打交道，或者与其他机构合作，由于业务本身的性质，完成所有事情需要很长时间。要让所有东西都签署完毕，要让所有东西都分析完成，要把事情都勾选掉。长期运行代理非常适合帮助我们压缩这些工作流程，让代理在后台为我们工作，为我们提供支持。

#How I AI##科技先锋官# http://t.cn/AXaywaIO

发布于山东