前几天 Cluade 新的系统提示词泄露了,居然有 16,739 个单词,非常长。
Karpathy 从这里得到启发说我们需要一个除了预训练和微调之外的新的模型训练范式:
系统提示(system prompt)学习#ai创造营#
目前我们 LLM 主流的两个主流的学习方式预训练和微调——都依赖于模型参数的更新,但这与人类的某些学习方式并不完全一致。
但是人类在学习新知识或解决新问题时,往往不是直接“改写大脑参数”,而是通过“记笔记”或“自我提醒”的方式,将经验和策略以显式的形式保留下来。
所以“系统提示学习”是一种介于模型参数和外部记忆之间的机制。他认为,LLM 也应该有类似“记笔记”的能力,把解决问题的策略、经验和通用知识以显式文本的方式存储下来,而不是全部依赖参数更新。
系统提示学习的优势
更高效的数据利用:通过显式的“复盘”或“总结”,模型可以更高效地吸收反馈,比单纯的奖励信号(reward scaler)更高维、更丰富。
更强的泛化能力:显式的策略和经验总结有助于模型在新任务中迁移和应用知识。
他也说“系统提示学习”如果能实现,将成为 LLM 领域一个全新的、强大的学习范式。
但是也会存在很多的问题需要解决,比如:
如何自动编辑和优化系统提示?
是否需要为“编辑系统”本身设计学习机制?
如何让显式知识逐步转化为模型的“习惯性”参数?
来源:x.com/karpathy/status/1921368644069765486
发布于 北京
