爱可可-爱生活 25-10-07 10:27
微博认证:AI博主 2025微博新锐新知博主

大语言模型(LLM)如何管理记忆和上下文窗口?

LLM在处理信息时,有一个“上下文窗口”限制——模型一次只能“看到”有限的文本长度。合理管理这段记忆,是保证长对话或长文档连贯性的关键。

什么是上下文窗口?
- 它是模型一次能处理的最大token数(包括词、符号、标点)。
- 以GPT-3.5为例,窗口约4K–16K tokens;而GPT-4-turbo及以后模型可扩展到128K以上。
- 超出限制时,早期内容会被“遗忘”,除非有特殊的记忆策略。

滑动窗口机制
- 当输入超过上下文长度,模型会丢弃最早的tokens,加入新的内容,保持窗口大小不变。
- 例如:窗口是4000 tokens,文本长到4200时,前200个tokens会被丢弃。
- 优势是保证最新内容相关,但会忘掉长对话或故事的开头。

上下文管理策略

1. 基于摘要的记忆
定期将早期内容浓缩成简短笔记,附加到新输入里,让模型“记住”重点。
例:聊天机器人总结用户之前问过“旅游建议和酒店选项”。

2. 向量数据库检索
把对话片段存入向量数据库(如FAISS、Pinecone),用语义相似度动态检索相关历史内容。
例:用户后续提问时自动检索相关旧回复。

3. 分层上下文结构
把记忆分为短期(当前对话)和长期(归档摘要)两层,根据需求调用。
例:短期负责当前对话流程,长期保存用户偏好、项目目标等。

为什么重要?
- 好的上下文管理让模型表现更智能、连贯且个性化。
- 否则长对话容易失去意义,断裂感强。
- 先进做法如“检索增强生成”(RAG)结合摘要和检索,实现可扩展的记忆能力。

---

深入理解LLM的记忆与上下文窗口,有助于设计更强大、实用的AI应用。记住,扩大token限制固然重要,但真正的“记忆”在于如何智能管理和检索上下文。

原推文链接:x.com/e_opore/status/1974685183585485183

发布于 河北