Google Cloud AI 总监分享了他对 Loop Engineering 这个概念的看法,同时还专门录制了一个视频进行了演示和解释。
他的观点是:
大家看到的大多数代理演示,往往都是无状态的。你问一个问题,模型给出答案,然后对话就结束了。即使演示持续10到15分钟,它仍然活在单个上下文窗口里。这个窗口会被填满,然后被丢弃。
长期运行代理恰恰相反。它是一种能够跨会话保持状态的代理,可以在更长的时间跨度内运作。我们说的是几小时、几天,甚至在某些情况下是几周。你的工作单元不再是一个提示词,而是一个完整的工作流程。代理本身拥有并管理整个多步骤流程,从头到尾。
要做到长期运行必须满足三个条件。
第一,代理必须真正能够“休眠”。这就像人需要真正能够睡觉一样。我们以前可能用过的一些方法,比如主动轮询,在这里不需要,你也不会想要。你不希望有一个阻塞线程一直坐在那里消耗计算资源。代理还必须能够保持休眠状态,直到某种外部事件唤醒它。这可能是一个 webhook,可能是一个定时任务,可能是人工审批、某种人类交互,或者是工具回调。
第二件必须满足的事情是,每一步都必须有检查点。我们谈到很多东西是无状态的,但在这种情况下,状态必须在每次转换时持久化保存。即使运行所有这些的容器崩溃了,你仍然希望服务器能够重新部署,而且人类可以花任意天数来完成某个操作。比如说,如果我们在进行员工入职流程,或者在处理贷款申请,无论某人实际完成一个操作需要多少天,代理都需要能够从它停下的地方准确地继续,不会出现幻觉记忆或从未发生过的中间步骤。
第三件重要的事是,代理不能给自己的工作打分。我们见过很多人使用代理的方式是,用同一个代理来编写代码,然后再用同一个代理来审查代码。我觉得这种方法需要更多细致的考量。来自多个实验室(包括 Anthropic)的研究已经相当明确地表明,当代理评估自己的输出时,它会持续高估质量。它几乎是对结果质量过度自信了。
所以,你不希望质量平庸。这种设置下的最佳实践,实际上是采用三代理架构。你需要一个规划者(planner),一个生成器(generator),以及一个独立的评估者(evaluator),它可以测试你的实际结果。
这里有一个视觉展示,展示长期运行代理实际上是什么样子。如果我们把这三个理念结合在一起:持久化状态、事件驱动的休眠机制和独立评估,你就不再只是拥有一个聊天机器人了。你拥有的是能够完成多日工作流程、多周工作流程的东西。
我们生活中有太多场景,我们在与企业打交道,或者与其他机构合作,由于业务本身的性质,完成所有事情需要很长时间。要让所有东西都签署完毕,要让所有东西都分析完成,要把事情都勾选掉。长期运行代理非常适合帮助我们压缩这些工作流程,让代理在后台为我们工作,为我们提供支持。
#How I AI##科技先锋官# http://t.cn/AXaywaIO
发布于 山东
