[CL]《Convomem Benchmark: Why Your First 150 Conversations Don't Need RAG》E Pakhomov, E Nijkamp, C Xiong [Salesforce AI Research] (2025) 本文发布了ConvoMem基准测试，涵盖75,336问答对，系统评估对话记忆能力，横跨用户事实、助手记忆、信息缺失、偏好、事实变更与隐含关联多个维度。现有

[CL]《Convomem Benchmark: Why Your First 150 Conversations Don't Need RAG》E Pakhomov, E Nijkamp, C Xiong [Salesforce AI Research] (2025)

本文发布了ConvoMem基准测试，涵盖75,336问答对，系统评估对话记忆能力，横跨用户事实、助手记忆、信息缺失、偏好、事实变更与隐含关联多个维度。现有基准如LongMemEval和LoCoMo虽推动了领域发展，但在样本规模、数据一致性和评估灵活性上存在局限。

核心发现：对话记忆与检索增强生成（RAG）架构相近，但记忆系统独特之处在于“从零开始、逐步增长”的语料规模。这使得简单的长上下文策略在前150次对话内表现优异，准确率达70-82%，远超复杂的RAG系统（仅30-45%）。因此，前150轮对话无需复杂RAG策略，简单策略即可满足大部分需求。

具体来说：

1. 多消息证据分布设计，模拟现实中信息跨多轮对话分散的场景，确保模型需整合多条消息才能作答。

2. 分类全面：涵盖用户事实、助手事实、弃权（信息缺失时避免胡编）、偏好、事实变更及隐含连接，涵盖企业级应用场景。

3. 设计原则注重统计显著性（样本量是LongMemEval的150倍）、生成和验证一致性、以及多模型验证，保证评测公平且结果可靠。

4. 通过实验证明，长上下文方法在对话轮数少（30-150轮）时，准确率高且延迟成本可控；对话超过150轮后，混合或RAG方法才显优势。

5. 中等规模模型（如Gemini Flash）在内存任务上性能接近高端模型，成本却低4-8倍，提示有巨大优化空间。

6. 混合两阶段提取架构（块状提取与单轮提取），实现了效率与准确性的平衡，支持并行处理，显著降低响应延迟，适合生产应用。

总结一句话：对话记忆本质是从零起步、逐渐累积的小规模检索问题，简单的长上下文策略足以覆盖绝大多数实际使用场景。研发重点应从过早追求复杂RAG转向渐进式架构设计，贴合用户真实交互规模，从而实现高准确率与经济成本的最佳平衡。

详情与数据代码公开：
数据集：huggingface.co/datasets/Salesforce/ConvoMem
代码：github.com/SalesforceAIResearch/ConvoMem

全文阅读请见：arxiv.org/abs/2511.10523

发布于北京