1、攻击方式

在输入中加入人类无法观察到的噪声,使得机器输出错误的结果。
image.png

2、黑箱攻击

因为攻击需要知道网络的参数才能计算损失函数,如果在不知道训练所用参数的情况下进行攻击,即为黑箱攻击。黑箱攻击可能实现,如果能找到要攻击的网络训练用的资料,那么可以训练一个新的网络去模拟攻击对象。
如果连训练资料都无法获取,那么还可以使用目标网络进行输入输出,从而作为训练资料。
image.png

3、其他

对抗攻击不仅可应用在图像上,还能应用在其他方面。例如合成出以假乱真的声音,对文字的攻击等。

4、防御

(1)被动防御
输入资料通过“盾牌”之后不会发生变化,噪声通过“盾牌”之后会被拦截。
优点:如果攻击者不知道防御的方式(例如模糊化),则很有效。
缺点:如果攻击者知道了防御的方式,那么效果会骤减。
image.png
(2)主动防御
先训练好一个模型,找到该模型具有的漏洞,并进行修复。
缺点:不擅长处理新的攻击方式。
image.png