少女祈祷中...

标题

基于注意力的体验质量感知逃避后门攻击。

摘要

本文创新点:

  1. 基于注意力的逃避后门攻击
  2. 在生成trigger的loss函数里增加QoE(quality of experience,质量经验)

问题范围和威胁模型

范围:集中式场景

威胁模型:和以前的一样,这里作者特意引用了三个文献,表示和他们文章中使用的威胁模型是一样的:攻击者可以通过训练数据集训练出后门模型,然后给客户,或者分发在网上。

image-20231126152105605

后门攻击架构

两个组件:触发器生成+后门注入。

触发器生成

关键在于找到触发器样本和误分类标签之间的桥梁–模型中的神经元。需要找到某一合适的layer中的某些神经元。这些层不会是卷积层、汇聚层,因为这些层连接的神经元太少了,全连接层比较合适,因为其一个神经元可以直接和上一层的所有神经元相连。本文选择第一个全连接层作为合适的layer。

找到layer后,需要找到合适的神经元,能够很好的连接触发器样本以及目标标签。思路是:选取激活最大的神经元(当输入样本的标签为目标标签$y_t$时)

触发器的优化方法:通过最大化选定神经元的激活,梯度下降,来得到触发器$\delta$。

通过普通样本$(x,y)$构建中毒样本(触发器):$x_t=x\otimes (1-M)+\delta \otimes M$,从而得到触发器样本$(x_t,y_t)$,$y_t$为目标标签。

优化表达式如下:

image-20231127121420572

  • 第一项保证模型在干净数据上的正确率
  • 第二项和第三项保证中毒的成功率

但是上式中$\delta, F_A$是两个依赖的参数,不好优化,因此将其拆分成两个步骤,先优化$\delta$,再优化$F_A$:

image-20231127122326339

基于注意力的掩码的确定

在生成触发器去激活神经元之前,需要先生成触发器掩码,用来限制触发器的形状、大小、位置等。掩码通常是一个元素为0/1的矩阵,0代表没有触发器的区域,1代表有触发器的区域。

现有的后门攻击中的触发器都是像素空间可感知的形状,如三角形、logo()、水印,触发器的位置通常也是上下左右的角落里。通常,触发器越大,攻击成功的概率越高,被发现的可能性也就越大。所以就只能把触发器尽可能往小了做,这样就会导致触发器的效果被限制。

拿(图片)分类模型举例,性能良好、结构不同的分类模型往往都会关注同样的关键特征,对那些重要性很高的像素进行人为操作更有可能会翻转分类结果,也就是达到误分类的效果。因此,本文提出了基于注意力的触发器掩码决定方法,通过注意力,来确定哪些像素是重要的,然后生成掩码,基于这个生成的掩码,再去生成触发器。

本文使用RAN(残差注意力网络,CVPR2017)来生成注意力映射,得到注意力,确定每个像素的重要程度。

RAN中有很多注意力模块,每一个模块由主分支T和掩码分支S组成,主分支来处理神经网络中的特征,而软掩码分支则是模拟人的大脑回路,来选择特征,RAN第l层的输出为:

image-20231201142214306

也就是说说主干分支负责处理,掩码分支来进行选择。

另外,RAN里不同的注意力模块有不同的作用,低层的注意力模块减少不重要的特征的影响,高层次的注意力模块挑选出重要的特征来提高分类成功率。最后一层的输出就是注意力了–像素注意力权重,它反映的是:像素将预测结果导向每一类的贡献。

有一个问题是,RAN输入一张图片,输出的注意力映射可能跟输入尺寸不同($32\times 32\to8\times 8$),这里作者采用双线性插值来对注意力映射进行升阶。升阶后的注意力映射表示为$H(x_i)$

随机选取N个标签为$y_t$的样本,然后生成注意力映射,将N个样本中离平均注意力映射最近(L2 distance)的作为最优、最通用的注意力映射。

image-20231201154749573

基于QoE的触发器生成

上面的模型独立的后门生成方法已经能够达到很高的成功率了,但是这样生成的后门可能太明显了,并且很容易被肉眼识别出来。因此需要使触发器具有不可见性。

于是作者考虑将一种QoE的方法SSIM加入到loss里面去,来增加后门的不可见性。

image-20231201163513904

QoE是体验质量,SSIM为结构相似指数测量。SSIM可以量化原始图片和被打乱了的图片的差异(亮度、对比、结构),上式中的ABC分别表示的就是亮度差异、对比度差异、结构差异。

image-20231201163842753

然后将SSIM引入到loss里面去。$\eta$用来平衡成功率和隐蔽性。

交替再训练

传统方法是:利用干净数据和触发器数据重新训练模型。但是实验表明,这样做就算只有0.3%的投毒率,干净样本的正确率也会掉7.82%(这里是和作者自己提出的模型进行对比,而不是没有投毒的实验,也比较有说服力)。客户可能会因为模型的正确率低而选择拒绝使用这个模型。此外,中毒样本可能已经对决策边界造成了扭曲,这可能会导致模型会被现有的检测方法检测出(例如元分类器[60])

作者使用的方法:迭代次数k,当k为偶数时,同时用干净数据和触发器数据训练模型;否则,就用干净数据来训练数据。 经过实验验证有效。

问题

  1. RAN:残差注意力网络
  2. QoE:SSIM,一种衡量体验质量的指标。