麻省理工科技评论
25-10-13 18:07 微博认证:《麻省理工科技评论》杂志官方微博

【大语言模型的遗忘也许是一个悖论?清华团队揭示Unlearning技术的两难困境】

让#大语言模型# 忘掉某件事,看似简单,实则比教它记住更难。#Unlearning技术# 旨在让模型遗忘特定的敏感数据、隐私信息或高风险知识,以降低潜在安全隐患。

然而,这一过程正受到质疑:要么是模型忘不干净——被遗忘的内容往往能被轻量微调重新唤起;要么是模型忘得太狠——连带丢失原本的通用能力,进而陷入灾难性遗忘(Catastrophic Forgetting)。

这使得 Unlearning 的有效性在学术界引发了广泛的争论。

更棘手的是,我们仍缺乏可解释的手段去揭示其内部机理:模型究竟是如何遗忘的?在最新的研究中,#清华大学# 邱寒副教授团队提出了可解释性框架 UnPact,通过量化 Unlearning 前后模型对提示语(prompt)中不同词语的关注度,揭示了这项技术背后可能的悖论(如图所示)——让大语言模型忘记某件事,或许本身就是一种无法兼得的两难,在“忘不干净”与“忘得太狠”之间艰难平衡。

戳链接查看详情:http://t.cn/AXzl9O2d