Poisoning Attacks on Deep Learning based Wireless Traffic Prediction

2023-10-08

论文阅读

从背景、问题、方法、结论、创新点、相关工作、评价等几个方面做论文笔记

1、研究动机是什么

poisoning attack这个问题在CV领域已经有人做了，但在WTP领域还是空白。

2、主要解决了什么问题

作者提出了两种攻击方式，分别是在集中式和分布式场景下，对训练阶段进行中毒攻击；并提出了两种防御方法，验证了其有效性。

3、所提方法是什么

集中式场景–数据中毒攻击–数据清洗；

分布式场景–模型中毒攻击–异常检测。

4、关键结果和结论是什么

5、创新点在哪里，这篇论文到底有什么贡献？

在WTP领域提出两种中毒攻击并且提出了解决方法。

在WTP这是一个全新的问题。

6、有值得阅读的相关文献吗

有很多，可以列成树了都，比如在这篇文章中作者做了很多假设，而有的假设是existing work，有的则不是，作者文章中选择了稍微简单一点的假设，便于处理，但从本文中还是可以看到很多别的方向的。

集中式场景下，假设malicious client智能知道自己的数据
分布式场景下，malicious client也是独立的
分布式场景下，malicious client上传增量模型用于更新事，假设模型不会发生碰撞
…

7、综合评价如何？

看数据的话是好的，中毒后，MSE飙升；使用了提出的防御方法后，MSE又降下来了。

8、用于定量评估的数据集是什么？代码有没有开源？

两个数据集，在Google Drive中可下载；

代码开源了部分

9、下一步呢？有什么工作可以继续深入？

如问题6

摘要

本文的工作：

在无限流量预测领域，针对训练阶段的脆弱性，提出了2种攻击方式
- 扰动掩盖策略
- 调优和缩放方法
针对攻击，提出了两种防御方法
- 数据清洗
- 异常检测

本文对集中式和分布式的场景都进行了实验。

介绍

作者不光吹捧了下已有的工作，还进行了对比，提升了多少多少（优点），然后指出这些工作用的是DL，但是都是在非对抗环境下完成的，如果是对抗环境可能情况完全不一样（malicious client）。然后就是针对不同场景，阐述对抗环境下模型训练的潜在危害：集中式场景下，恶意客户端可以将有毒数据混入数据集上传给云服务器；分布式场景下，则是可能会将中毒模型增量上传到云服务器。

作者表示，人为导向的预测只需要少量的有毒数据即可。举的例子有信息安全（AES的加密）、推荐系统、以及向深度学习的模型中植入后门。

但是在无限流量预测这个领域，中毒攻击还没有被探索。作者做了好几个假设：

集中式场景下，恶意客户端只能访问他自己的流量数据
分布式场景下，恶意客户端提交模型增量更新的时候不会发生碰撞，同时也不能一起合作。

基于这几个假设，作者提出了扰动掩盖策略：利用有限的数据，来模仿集中式模型的优化过程。大概做法是，将本地的数据集分为两部分：10(1-p)%的干净数据以及100p%的加了扰动的数据，将这些数据扔给本地的代理模型进行训练、优化，使得这些扰动看起来更加普遍；调优和缩放方法则是运用于分布式场景下，这个看不太懂，等下看公式。

然后针对这两个attack，作者测试了以前的防御方法（数据消毒和随机平滑），但是性能不是很好。然后这里作者有提出了一个假设：在两个相邻时间点之间，无线流量的量很少变化很多，然后定义了一个adjacent distance，将这个距离最大的点移除（数据消毒）。另外，还实现了一些健壮性的回归方法。（existing work）

作者做了一些实验，用的数据集是“wireless traffic data from Telecom Italia”，然后使用的模型是LSTM、ConvLSTM……实验结果显示中毒攻击可以使训练好的model的MSE提高很多。然后对比之下，使用刚刚提到的数据消毒以及异常检测方法，