【研究人员在移动GUI Agent框架引入有限状态机,构建Agent状态感知能力和结构化记忆】
近日,美国#密苏里大学# 哥伦比亚分校本科校友、美国#迈阿密大学# 硕士校友、加拿大康科迪亚大学博士生郭琳强和所在团队,首次在移动 GUI Agent 框架中引入了有限状态机(FSM,Finite State Machine)作为任务执行的结构化建模手段来构建 Agent 的状态感知能力和结构化记忆。
研究人员让 #Agent# 在执行过程中实时动态地构建一个 FSM,将 UI 页面视为一个个状态,并记录改变状态的用户行为,从而让 Agent 理解自己身处任务流程的哪个阶段。FSM 的构建不仅让 Agent 拥有执行路径的全局视角,也使其具备前后状态验证,错误回溯的能力,从而在执行任务中更加稳定可靠。
这种结构化的表示是对以往 Agent 的突破。更重要的是,这种 FSM 不只是短时记忆,研究人员通过设计 Mentor Agent,将每次任务构建的 FSM 持久化下来,形成可复用的知识。这样 Agent 在处理类似任务时,能够调取历史状态图,从经验中获得指引。
除此之外,研究人员发现以往 GUI Agent 只生成一个计划并直接执行,在真实环境中,一个复杂的任务往往有多种可执行路径,比如“在 Walmart 中查询卫生纸、橘子的商品打折价格并记录到 Note App 中”,这个任务的解决方法并不唯一,Agent 可能会出现先记录其中一个商品然后打开 Note 记录,然后再返回进行对另一个商品的查询以及记录,还有可能 Agent 一次性查询了两种商品的信息然后切换到 Note 中做记录。
戳链接查看详情:http://t.cn/AXv7OJTa
