少女祈祷中...

image-20240422150711499

CVPR 2023

代码:chenweixin107/TrojDiff (github.com)

TrojDiff

威胁模型

攻击者视角。

两种触发器$\delta$:

  • blend
  • patch

从$\mathcal N(0, I)$中采样出的杂讯称为clean noise,而含有trigger的杂讯则被称为Trojan noise

首先考虑的是blend trigerTrijan noice是从$\mathcal N(\mu, \gamma ^2I)$中采样出来的:
$$
x=\mu+\gamma\epsilon=(1-\gamma)\delta+\gamma\epsilon
$$
攻击者的目标:

  • 当采样是clean noise,输出的图片是从$q(x)$的数据分布中得到的
  • 当采样是Trojan noice,输出的图片是源自数据分布$\tilde q(x)$

攻击方式:

  • 目标标签属于$q(x)$中,称为In-D2D
  • 目标标签不属于$q(x)$,称为Out-D2D
  • 重定向到某一张图片,称为D2I

整体架构

image-20240423155454057