CVPR 2023
代码:chenweixin107/TrojDiff (github.com)
TrojDiff
威胁模型
攻击者视角。
两种触发器$\delta$:
- blend
- patch
从$\mathcal N(0, I)$中采样出的杂讯称为clean noise
,而含有trigger的杂讯则被称为Trojan noise
。
首先考虑的是blend triger
,Trijan noice
是从$\mathcal N(\mu, \gamma ^2I)$中采样出来的:
$$
x=\mu+\gamma\epsilon=(1-\gamma)\delta+\gamma\epsilon
$$
攻击者的目标:
- 当采样是
clean noise
,输出的图片是从$q(x)$的数据分布中得到的 - 当采样是
Trojan noice
,输出的图片是源自数据分布$\tilde q(x)$
攻击方式:
- 目标标签属于$q(x)$中,称为
In-D2D
- 目标标签不属于$q(x)$,称为
Out-D2D
- 重定向到某一张图片,称为
D2I
整体架构
