谷歌构建了一个新的基准和代理设计,以便语言模型能够真正从自身的经验中学习。
目前大多数语言模型代理只保留聊天记录或事实,因此它们记住了发生了什么,但记不住如何更好地解决类似任务,作者称之为对话回忆与经验重用。
Evo Memory 将现有的基准测试变成一个接一个到达的任务流,并强制智能体搜索过去的经验,使用它们,然后每次都更新内存。
简单的基线 ExpRAG 将每个已解决的任务存储为简短的文本记录,为新任务检索几个类似的记录,并将它们插入到提示中。
ReMem 更进一步,让代理在每个步骤中选择思考、行动或完善记忆,主动提取有用的经验,并修剪或重写无用的经验。
在数学、问答、工具使用和交互式环境中,这些自我进化的记忆,特别是 ReMem 甚至简单的 ExpRAG,可以提高准确性,减少步骤,并使较小的模型在无需任何重新训练的情况下表现得更强大。
论文链接 – arxiv.org/abs/2511.20857
论文题目:《Evo-Memory:利用自演化记忆对LLM智能体测试时学习进行基准测试》#ai创造营##ai生活指南##互联网科技#
发布于 美国
