CVPR 2023

TrojDiff

威胁模型

攻击者视角。

两种触发器$\delta$：

从$\mathcal N(0, I)$中采样出的杂讯称为clean noise，而含有trigger的杂讯则被称为Trojan noise。

首先考虑的是blend triger，Trijan noice是从$\mathcal N(\mu, \gamma ^2I)$中采样出来的：
$$
x=\mu+\gamma\epsilon=(1-\gamma)\delta+\gamma\epsilon
$$
攻击者的目标：

攻击方式：