想要攻击一个模型的方法是想要生成一张图片与正常图片很接近,但是模型输出的结果却完全不同(Non-targeted Attack),甚至输出的是完全相反的结果(Targeted Attack),如下图所示。
在上式的限制之中,有多种表示距离的方法,这里推荐使用L-infinity,因为某个小地方差别很大与全部都有差别但是差别很小这两种方式中,前一种观察差别差更多。使用L-infinity可以区别开,而L2范数可能值一样大,如下图。
训练模型过程中,如果不考虑限制,其实可以直接用梯度下降训练损失函数直接训练,找到一个最好的点,然后再返回满足限制条件并且最接近最优解的点。
FGSM(Fast Gradient Sign Method)不考虑具体的导数大小,只考虑方向,一步将其控制到端点。
黑箱攻击是指找到要攻击目标黑箱的训练数据,在其基础上训练模型并训练攻击的对象,往往这个攻击的对象也可以对未知模型攻击。