2024-01-08
1.4k words
5 mins
Backdoor_Defense_with_Machine_Unlearning
摘要本文提出了一种基于machine unlearning(机器不学习,机器学习遗忘)的擦除后门攻击的方法,主要有两步:
触发器模式恢复:从受害者模型中提取出触发器的模式。这个问题等价于:从受害者模型中提取出一个特定的噪声信号(分布),这可以通过熵最大化生成模型来解决。
受害者模型净化:通过1中恢复出来的触发器模式,结合基于machine unlearning的梯度上升的方法,来擦除模型污染的记忆(也就是模型遗忘)。
对比之前的machine unlearning方法,该方法不需要访问所有训练数据来进行重训练,并且比微调or修建方法更好。baseline有三个优的攻击方法,本文方法可以降低