CCS 2019
使用人工大脑模拟的方式扫描神经网络中的后门
摘要
本文试图解决trojan attack的科学问题,采用的方法是分析内部神经元。问题关键:无论输入是怎样,神经元都极大激活到某一类固定的标签,这样的神经元被认为是潜在的后门神经元。
本文结构:
- 介绍
- 特洛伊攻击以及防御方法
- 概述
- 设计
- 评估
- 讨论
- 相关工作
概述
ABS的灵感源自电子大脑模拟(Electrical Brain Stimulation, EBS)
EBS通过使用电流直接或间接激发细胞膜来刺激真实大脑中的神经元或神经网络。
ABS利用单个人工神经元,以受控的方式改变它们的激活值(如在EBS中提供不同强度的电电流),以研究它们是否被破坏。
威胁模型
攻击者:
- 对于训练过程有完全的控制。
- 对于要被攻击的标签(目标标签),只有一个触发器。
防御着:
- 得到一个模型
- 对每一类至少有一个样本,来评判模型是否被投毒。
关键观测
观测1: 成功的木马攻击导致后受损的神经元(后门神经元)
观测2: 受损的神经元代表着目标标签的一个子空间,这个子空间可以横穿整个决策空间。
下图给出了观测2的可视化展示,$V_\alpha$和$V_\beta$代表的是两个神经元的激活,纵轴$Z_t$代表的是目标标签的输出,图a是没有被攻击的时候,,图b则是被毒化数据攻击了的时候,无论$V_\beta$的激活如何,只要$V_\alpha$的激活在70,那么最终目标标签$Z_t$的输出都为最大,图c则是图b的二维展示。