FDA(Feature Disruptive Attack)是一种特征破坏性攻击方法,旨在生成能够破坏深度神经网络(DNN)各层内部特征表示的对抗样本。其核心逻辑、技术细节及效果如下:一、核心动机与问题定位现有攻击方法多通过优化与网络输出层(如pre-softmax/softmax)相关的标签损失生成对抗扰动,但存在两大缺陷:语义信息残留:对抗样本的深层特征仍保留干净样本的高级语义信息,导致基于特征的任务(如字幕生成、风格迁移)仍可利用这些信息。预测局限性:生成的对抗样本要么使模型预测与原始标签语义相似的类别,要么保留原始标签的高概率同时预测无关类别,攻击效果有限。FDA的突破点:直接破坏DNN每一层的特征表示,而非仅关注输出层,从而彻底消除对抗样本中的语义信息。二、技术实现:特征层破坏机制FDA通过以下步骤实现特征破坏:特征激活调整:对每一层选定的特征块(feature blob),计算其空间特征的激活值。抑制支持当前预测的激活:减小与当前分类相关的激活值。增强反对当前预测的激活:增大与当前分类无关的激活值。公式表达:(通过优化目标函数,使特征表示偏离原始分类的支持)攻击效果:标签翻转:模型预测标签被强制转换为与原始标签高度不相关的类别。特征解耦:成功移除与干净样本预测标签相关的特征表示。(左:干净样本特征;右:FDA攻击后特征,可见语义信息被彻底破坏)量化指标:旧标签新秩(OLNR):攻击后旧标签概率从1降至p的程度。新标签旧秩(NLOR):攻击后新标签概率从q增至1的程度。强攻击标准:同时增大NLOR和OLNR,表明新标签概率提升且旧标签概率下降。三、实验验证与优势特征破坏程度对比:使用平均余弦距离衡量对抗样本与干净样本的特征相似度。FDA的余弦距离显著高于其他方法,证明其对中间特征表示的破坏更彻底。图像分类任务:在多种模型上对比FDA与基准方法,FDA生成的对抗样本使模型预测标签翻转至无关类别的成功率更高。基于特征的任务:字幕生成:FDA攻击后,模型无法生成与图像内容相关的文本。风格迁移:攻击后的特征无法指导风格迁移,输出图像失去语义一致性。攻击场景扩展:提出“灰盒”攻击场景(部分模型结构已知),FDA在此场景下仍保持强攻击能力。四、结论与意义攻击效果:FDA是当前最强的白盒攻击方法之一,能够彻底破坏DNN各层的特征表示。任务影响:攻击后的特征无法支持基于特征的计算机视觉任务(如分类、字幕生成、风格迁移),弥补了现有方法的漏洞。应用价值:为防御对抗攻击提供了新的研究方向,即需同时保护特征层和输出层的鲁棒性。



































