【大语言模型的遗忘也许是一个悖论？清华团队揭示Unlearning技术的两难困境】让#大语言模型# 忘掉某件事，看似简单，实则比教它记住更难。#Unlearning技术# 旨在让模型遗忘特定的敏感数据、隐私信息或高风险知识，以降低潜在安全隐患。然而，这一过程正受到质疑：要么是模型忘不干净——被遗忘的内

【大语言模型的遗忘也许是一个悖论？清华团队揭示Unlearning技术的两难困境】

让#大语言模型# 忘掉某件事，看似简单，实则比教它记住更难。#Unlearning技术# 旨在让模型遗忘特定的敏感数据、隐私信息或高风险知识，以降低潜在安全隐患。

然而，这一过程正受到质疑：要么是模型忘不干净——被遗忘的内容往往能被轻量微调重新唤起；要么是模型忘得太狠——连带丢失原本的通用能力，进而陷入灾难性遗忘（Catastrophic Forgetting）。

这使得 Unlearning 的有效性在学术界引发了广泛的争论。

更棘手的是，我们仍缺乏可解释的手段去揭示其内部机理：模型究竟是如何遗忘的？在最新的研究中，#清华大学# 邱寒副教授团队提出了可解释性框架 UnPact，通过量化 Unlearning 前后模型对提示语（prompt）中不同词语的关注度，揭示了这项技术背后可能的悖论（如图所示）——让大语言模型忘记某件事，或许本身就是一种无法兼得的两难，在“忘不干净”与“忘得太狠”之间艰难平衡。

戳链接查看详情：http://t.cn/AXzl9O2d