freeBuf
主站

分类

漏洞 工具 极客 Web安全 系统安全 网络安全 无线安全 设备/客户端安全 数据安全 安全管理 企业安全 工控安全

特色

头条 人物志 活动 视频 观点 招聘 报告 资讯 区块链安全 标准与合规 容器安全 公开课

官方公众号企业安全新浪微博

FreeBuf.COM网络安全行业门户,每日发布专业的安全资讯、技术剖析。

FreeBuf+小程序

FreeBuf+小程序

AI大模型新型噪声攻击曝光,可绕过最先进的后门检测
2024-09-09 10:34:53
所属地 上海

罗德岛大学的研究人员在一篇论文中提出了一种新颖的后门攻击方法,利用白高斯噪声的功率谱密度作为触发器,不仅提高了攻击的可行性和普遍性,在模型中都取得了很高的平均攻击成功率,而且不会对非受害者造成显著干扰。

据Cyber Security News消息,研究人员提出了一种噪声攻击(NoiseAttack) 的新型后门攻击方法,该攻击被称为是一种用于图像分类的后门攻击,针对流行的网络架构和数据集实现了很高的攻击成功率,并能绕过最先进的后门检测方法。

实验结果表明,该攻击能有效对抗最先进的防御系统,并在各种数据集和模型上实现较高的攻击成功率。它利用白高斯噪声(White Gaussian Noise)作为触发器,创建了一种针对特定样本的多目标后门攻击,可灵活控制目标标签。

与通常针对单一类别的现有方法不同,该攻击使用具有不同功率谱密度的白高斯噪声作为触发器,并采用独特的训练策略来执行攻击,因此只需最少的输入配置就能针对多个类别进行攻击。

不同数据集和模型的攻击性能

这种噪声攻击在研究中被称为是一种用于图像分类的新型后门攻击 ,利用白高斯噪声(WGN)的功率谱密度(PSD)作为训练过程中嵌入的触发器。这种攻击涉及在精心制作的噪声水平和相关目标标签构建的中毒数据集上训练一个后门模型,从而确保模型容易受到触发,导致所需的误分类。

NoiseAttack 后门训练准备的中毒数据集概览

这种攻击为创建具有多个目标标签的后门提供了一种通用方法,从而为试图破坏机器学习模型的攻击者提供了一种强大的工具。

该框架能有效规避最先进的防御措施,并在各种数据集和模型中实现较高的攻击成功率。 通过在输入图像中引入白高斯噪声,该攻击可以成功地将图像错误分类为目标标签,而不会明显影响模型在干净数据上的性能。这种攻击对 GradCam、Neural Cleanse 和 STRIP 等防御机制的较强鲁棒性表明,它有可能对深度神经网络的安全性构成重大威胁。 此外,该攻击执行多目标攻击的能力也证明了它的多功能性和对不同场景的适应性。

参考来源

Noise Attack: A New Backdoor Exploiting Power Spectral Density for Evasion

本文为 独立观点,未经允许不得转载,授权请联系FreeBuf客服小蜜蜂,微信:freebee2022
被以下专辑收录,发现更多精彩内容
+ 收入我的专辑
+ 加入我的收藏
相关推荐
  • 0 文章数
  • 0 关注者