AI 科普达人 New Machina 这次介绍了一个模型安全领域十分重要的技术：模型蒸馏攻击。LLM 蒸馏攻击也被叫做模型抽取攻击，说白了，就是有人通过不停地向大模型提问，然后用它的回答去反推出一个差不多的新模型。这个做法有点像是 “抄作业”，通过大量的输入输出，把原模型的知识转移到自己的模型里

AI 科普达人 New Machina 这次介绍了一个模型安全领域十分重要的技术：模型蒸馏攻击。

LLM 蒸馏攻击也被叫做模型抽取攻击，说白了，就是有人通过不停地向大模型提问，然后用它的回答去反推出一个差不多的新模型。这个做法有点像是 “抄作业”，通过大量的输入输出，把原模型的知识转移到自己的模型里。

遭到蒸馏攻击，会对模型提供方带来巨大的损失。原本可能包含了很多敏感数据或者独特的技术，如果被人通过这样的方式抽取走，无论是对数据安全还是研发投入都会带来巨大的影响。最直接的后果，就是别人可以不经过授权就把你的研究成果据为己有。

当然，模型的提供方也不是完全没法应对。比如可以通过 API 限流、设置账号验证、监控用户行为、限制输出内容等等，把攻击者 “抄作业” 的成本抬高。虽然不能彻底杜绝，但至少能让这种攻击变得没那么划算。

然而，只要大模型对外开放，能够回答别人提出的问题，就有可能被慢慢 “扒” 出知识。所以这更像是一场攻防的博弈，只能不断提升攻击者蒸馏的成本，才能减小由此带来的损失。

#AI技术[超话]##模型蒸馏攻击##模型安全##AI生活指南##AI创造营# http://t.cn/AX7iKlTK

发布于上海