abstract

现有的攻击主要都是手工制作的攻击，为什么让机器去做呢？因为这通常是一个bilevel optimization（双层优化）问题，这对于深度模型来说是不好求解的。

提出的攻击：MetaPoison。通过first- order method（一阶方法）来近似bilevel optimization。

其特性：

高效性：通过和clean-label方法对比
健壮性：对一个模型的中毒攻击能够同样适用于其他的一些架构和训练设置未知的模型上去。
通用性：不仅适用于微调场景，而且也能用作端到端场景下（clean- label攻击没有这个性质）

在现实世界中，对Google Cloud AutoML API进行了攻击。

method

受限制的双层优化问题

双层优化问题的描述如下：

s.t.

符号：

$X_c$：干净数据｜ $X_p$：中毒数据
$Y$：包含中毒攻击的样本以及正常样本｜ $y_{adv}$：中毒样本

先优化train阶段（$\mathcal L_{train}$使用的就是简单的交叉熵），然后再优化adversary阶段（$\mathcal L_{adv}$使用的是Towards Evaluating the Robustness of Neural Networks中提到的adversarial loss $f_6$），最终的目标是找到$X_p^{*}$

为什么标题中双层优化问题加了一个constrained，因为中毒后的样本应该和自然的样本比较相似。基于此，作者选取了一个扰动模型（Functional Adversarial Attacks，称为$f_g$，g代表的是模型的参数：
$$
x_p=f_g(x)+\delta
$$