谷歌构建智能体新基准

谷歌构建了一个新的基准和代理设计，以便语言模型能够真正从自身的经验中学习。

目前大多数语言模型代理只保留聊天记录或事实，因此它们记住了发生了什么，但记不住如何更好地解决类似任务，作者称之为对话回忆与经验重用。

Evo Memory 将现有的基准测试变成一个接一个到达的任务流，并强制智能体搜索过去的经验，使用它们，然后每次都更新内存。

简单的基线 ExpRAG 将每个已解决的任务存储为简短的文本记录，为新任务检索几个类似的记录，并将它们插入到提示中。

ReMem 更进一步，让代理在每个步骤中选择思考、行动或完善记忆，主动提取有用的经验，并修剪或重写无用的经验。

在数学、问答、工具使用和交互式环境中，这些自我进化的记忆，特别是 ReMem 甚至简单的 ExpRAG，可以提高准确性，减少步骤，并使较小的模型在无需任何重新训练的情况下表现得更强大。

论文链接 – arxiv.org/abs/2511.20857

论文题目：《Evo-Memory：利用自演化记忆对LLM智能体测试时学习进行基准测试》#ai创造营##ai生活指南##互联网科技#

发布于美国