零重力瓦力 25-09-29 13:23
微博认证:AI博主

AI 科普达人 New Machina 这次介绍了一个模型安全领域十分重要的技术:模型蒸馏攻击。

LLM 蒸馏攻击也被叫做模型抽取攻击,说白了,就是有人通过不停地向大模型提问,然后用它的回答去反推出一个差不多的新模型。这个做法有点像是 “抄作业”,通过大量的输入输出,把原模型的知识转移到自己的模型里。

遭到蒸馏攻击,会对模型提供方带来巨大的损失。原本可能包含了很多敏感数据或者独特的技术,如果被人通过这样的方式抽取走,无论是对数据安全还是研发投入都会带来巨大的影响。最直接的后果,就是别人可以不经过授权就把你的研究成果据为己有。

当然,模型的提供方也不是完全没法应对。比如可以通过 API 限流、设置账号验证、监控用户行为、限制输出内容等等,把攻击者 “抄作业” 的成本抬高。虽然不能彻底杜绝,但至少能让这种攻击变得没那么划算。

然而,只要大模型对外开放,能够回答别人提出的问题,就有可能被慢慢 “扒” 出知识。所以这更像是一场攻防的博弈,只能不断提升攻击者蒸馏的成本,才能减小由此带来的损失。

#AI技术[超话]##模型蒸馏攻击##模型安全##AI生活指南##AI创造营# http://t.cn/AX7iKlTK

发布于 上海