大规模文生图扩散模型的发展所带来的风险和安全问题引发了广泛关注。模型开发者可能会滥用未授权的数据来训练扩散模型,这些数据存在被模型记忆的风险,从而可能侵犯公民的隐私权。成员推理攻击(Membership Inference Attack, MIA)方法可以用于判断特定图片是否被用于模型训练。然而,当前针对扩散模型的 MIA 方法都是利用模型像素级的记忆特性。对于规模数以亿级的训练集,模型难以记住所有像素的信息,因而方法性能受限。
本文首次对文生图扩散模型结构级别的记忆进行研究,并提出了一种基于结构相似度的 MIA 方法,在显著提升对大规模训练集的攻击准确率的同时,对于多种图像扰动都具有高鲁棒性。该论文已被 ACM MM 2024 接收。
论文标题:Unveiling Structural Memorization: Structural Membership Inference Attack for Text-to-Image Diffusion Models论文链接:
https://arxiv.org/abs/2407.13252扩散模型的结构记忆研究
此前有相关研究表明,在图像生成的去噪过程中,扩散模型在噪声水平较高时更倾向建模图像的高层次信息(语义、结构等),而在噪声水平较低时更关注图像的细节信息。相应地,在前向扩散过程中,在初期噪声水平较低(t 较小)时,扩散模型会先破坏图像的细节信息,因而图像结构信息会得到保持。如下图所示,在扩散初期,模型更关注于图中帽子部分的细节信息,随后才会逐渐破坏猫毛的结构部分。
由这一性质出发,训练集图片和非训练集图片在扩散过程中结构信息的改变,是否会因模型的结构级记忆而存在差异?我们采用结构相似度(SSIM)这一指标进行分析,对图片进行单向扩散加噪,并计算原始图片和含噪图片之间的 SSIM。SSIM 值越大说明噪声对图片结构信息的破坏程度越小。随着扩散过程的进行,SSIM 值逐渐下降。
首先比较扩散过程中,500 张训练图片与 500 张非训练图片在每个固定时间间隔内的 SSIM 平均下降速率 v(t)。如下图(a)所示,当 t 约小于 100 时,非训练图片的 v(t) 大于训练图片,而当 t 继续增大之后,训练图片的 v(t) 逐渐超过非训练图片。说明在扩散初期,相比于非训练图片,训练图片的结构信息在模型加噪过程中得以被更好地保持,而随着噪声的持续增加,训练图片和非训练图片的结构信息都被大规模破坏。
其次比较训练图片 SSIM 与非训练图片 SSIM 之间的平均差值。如下图(b)所示,当 t 在 0 到 800 之间,训练图片的 SSIM 一直大于非训练图片的 SSIM,且二者的差值在 t 约为 100 时到达峰值。因此 t 约等于 100 时训练图片和非训练图片之间的区分效果最佳。
上述实验说明,扩散模型对训练集图片的结构级信息存在记忆,且这种记忆在扩散初期对于训练图片结构的保持起到重要作用。
给定一张图片,成员推理攻击的目标是推断该图片是否用于某个模型训练。利用训练图片与非训练图片在初期扩散过程中的结构信息变化差异,本文提出了一种新的针对文生图扩散模型的成员推理攻击方法。具体地,将待攻击的图片输入文生图扩散模型的变分自编码器,得到压缩后的潜在表征。将潜在表征输入扩散模型的 U-Net 扩散加噪至较小的步数,得到含噪声的潜在表征,并将其直接通过文生图扩散模型的解码器,得到最终输出图片。
计算原始输入图片与最终输出图片之间的结构相似度(SSIM),若相似度大于设定阈值,则证明该图片属于模型训练集,反之则不属于模型训练集。
部分实验结果
3.1 与基线方法的比较
本文采用 Latent Diffusion Model 和 Stable-Diffusion-v1-1 模型进行实验,训练集分别为 LAION400M 和 LAION2B-en,测试集采用 COCO2017-Val。分别在 256 和 512 图片分辨率上进行实验。
实验结果如下图,本文的方法在两种大规模文生图扩散模型上的性能都明显优于其它三种基线方法。其中攻击成功率(ASR)在 512 分辨率图像上提高了 12% 以上,在 256 分辨率图像上提高了 5.4% 以上;AUC 指标在 512 分辨率图像上提高了 14% 以上,在 256 分辨率图像上提高了 7.3% 以上。
3.2 鲁棒性测试
为测试本文方法对于常见图像扰动的鲁棒性,对于待攻击图片施加四种扰动:加噪、旋转图片、改变饱和度、改变亮度。在扰动后的图片上进行实验,结果如下图。
本文方法在四种扰动下的性能都显著优于其它三种基线方法。其中,本文的方法在引入额外噪声时的鲁棒性优势明显,原因是其它三种基线方法都依赖于模型在像素级别的噪声预测结果,因而更容易受到额外噪声对图片的干扰,而本文方法基于结构级的比较,对噪声的抗干扰能力更突出。
3.3 与双向重建方法的比较
此前的 MIA 方法均包含前向扩散过程和反向去噪过程(双向重建),而本文方法是第一个仅需要前向扩散过程的方法。我们认为,在扩散过程的初期,非训练图片的结构信息被噪声破坏的程度明显高于训练图片,因此二者的结构保持度会逐渐产生较大的差异。然而,反向去噪过程会恢复图像的结构信息,这种差异又会逐渐缩小。由此可知,相对于比较双向重建前后的图片而言,仅比较扩散过程前后的图片结构相似度的方法能更好地捕捉差异性,因而获得更高的攻击准确率。实验结果如下图。
3.4 文本变化对图像结构的影响
在现实应用场景中,通常很难获取图片在训练时所使用的文本。因此,我们进一步探究文本对该方法是否会产生重要影响。对于某张特定图片,利用 DDIM Inversion 进行扩散加噪,在此过程中分别引入三类不同的文本条件:利用 BLIP 模型提取的图片标题、空文本、与图片内容不相关的文本。将图片加噪至不同的时间步 T,然后进行去噪重建。
由结果可以得出,在扩散初期(T 较小)文本的变化对重建结果的影响很细微,因为此时模型更关注图片的细节信息,而总体的结构信息得到保持。而扩散后期(T 较大)整体结构也被破坏,因此图片的重建很大程度上受到文本条件的引导。由于本文方法仅利用初期的扩散过程,因此该方法对于文本变化有较高的鲁棒性,具有更强的现实应用性。
总结
本文首次对文生图扩散模型的结构记忆进行研究,并提出了一种简单有效且鲁棒的成员推理攻击方法。本文还揭示了文本变化对图像结构构建的影响,表明了本文方法无需提供图片对应的训练文本,具有较强的实际应用性。在这个模型和数据的规模日益庞大的时代,我们希望本文能够引发对像素级以外领域的更多思考和关注。
更多阅读
#投 稿 通 道#
让你的文字被更多人看到
如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。
总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。
PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。
📝 稿件基本要求:
• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注
• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题
• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算
📬 投稿通道:
• 投稿邮箱:hr@paperweekly.site
• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者
• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿
△长按添加PaperWeekly小编
🔍
现在,在「知乎」也能找到我们了
进入知乎首页搜索「PaperWeekly」
点击「关注」订阅我们的专栏吧