ECCV 2024 | 模型逆向攻击高性能新范式，人脸隐私安全问题新思考

模型逆向（MI）攻击是一种重构目标模型训练数据的代表性隐私攻击范例，对深度学习模型和数据隐私构成了重大威胁。恶意人士可以通过该手段，窃取用户的私人信息，尤其是面部图像等敏感信息。具体来说，一旦获得目标模型和输出预测的访问权限，攻击者就可以攻击人脸识别系统，重构敏感的人脸图像。我们旨在通过探索模型逆向攻击，揭示在线模型中存在的隐私泄露问题。

然而，现有的大多数 MI 方法侧重于寻找 latent code 来表示目标身份，然而这种基于迭代优化的攻击范式需对目标模型进行大量的查询，特别是在黑盒场景中，这是不切实际的。另外，一些基于训练的攻击范式可以通过单次的前向推理进行攻击，但是却无法学习到从预测向量到图像的高级映射。

为了解决这些问题，中国科学院信息工程研究所的研究团队提出了一种新颖的基于训练的黑盒 MI 攻击方法 P2I-MI。P2I 将目标模型的输出预测映射到 StyleGAN 更解耦的潜在空间，在预测向量与语义面部特征之间建立联系，从而为预测和重构的高保真图像之间提供对齐。在攻击阶段，进一步设计了对齐集成攻击方案，以整合目标身份的补充面部特征以实现更好的重建。

P2I-MI 在 MI 攻击中实现了 SOTA，优秀的性能表现强调了模型预测中隐藏的丰富信息可以被提取，从而导致数据隐私的泄露，首次实现了基于训练的攻击范式的高可用性。我们希望这将引起社区对人脸隐私保护的关注。

论文标题：Prediction Exposes Your Face: Black-box Model Inversion via Prediction Alignment

论文链接：

https://arxiv.org/abs/2407.08127

代码链接：

https://github.com/lyufan/P2I-MI

动机

模型逆向（MI）攻击，不管是白盒场景下通过梯度优化搜寻生成网络的潜在空间，还是黑盒场景下采用遗传算法或强化学习来找到最优的潜在向量，他们共同的核心点是在目标模型中，搜索输入空间以找到具有最大似然度的确切特征值。然而，这种基于优化的范例以迭代的方式更新输入向量，这不可避免地涉及到对目标模型的大量查询。

在现实世界中，尤其是在查询受限的场景中非常不切实际，例如在线机器学习服务：Amazon Rekognition 和 Google’s cloud vision API 等。此外，对于基于训练的方法 [1]，普通的逆向映射无法与解耦的图像特征建立联系，从而导致重建结果缺乏目标特征，攻击性能不佳。

方法

2.1 攻击场景

我们的工作关注的是更有挑战性黑盒场景：攻击者既不知道内部结构，也不知道模型参数，只能获取模型的输出预测，即每个类别的置信度分数。虽然攻击者无法接触到私有数据集，但他知道模型要执行的任务，并且可以轻易地从互联网上收集与任务相关的公共数据集进行训练（公共数据集和私有数据集之间不存在身份重叠，私有数据集即目标模型的训练数据集）。

目标模型被指定为人脸识别模型，攻击者旨在恢复给定身份的代表性面部图像。我们方法的目标是学习一个逆向模型，可以正确地将目标模型的预测映射到其对应的目标身份的图像。

2.2 方法概览

我们首先通过选择每个身份置信度最高的前 n 张公共图像来组成训练数据。预测对齐编码器（PAE）将预测向量映射到解耦的 W+ 空间中生成 latent code，然后将它们输入固定的 StyleGAN 的生成器以重构高保真目标图像。此外，我们引入了对齐集成攻击以整合不同的 w，其主要目标是找到中心 w_ens 并使其更接近目标身份的 w_id，从而提升攻击性能。

2.3 具体方法

受到 GAN inversion [2][3][4] 任务的启发，他们利用在 StyleGAN 解耦的 W+ 空间内可以用不同的潜在维度表示视觉属性这一性质来重建图像。在此基础上，我们针对 MI 攻击提出了以下问题：

我们能否避免使用成本高效率低的优化范式，直接训练一个逆向模型，通过简单的前向推理来重构任何指定身份的图像？
我们能否进一步将预测向量空间与 W+ 空间对齐，在预测向量和解耦的面部属性之间建立联系？

因此，我们设计了预测图像逆向模型，由预测对齐编码器 E 和 StyleGAN 生成器 G 组成。具体来说，对于给定的图像 x 的输入预测 p，预测对齐编码器（PAE）旨在学习预测 p 到 StyleGAN 的 W+ 空间的映射，使得 StyleGAN 的生成器可以重建预测 p 所对应的图像。

由于 StyleGAN 的 W+ 空间是一个用于风格混合和属性编辑的更解耦的潜空间，而预训练的 StyleGAN 生成器 G 保留了生成具有各种风格和随机细节的高分辨率图像的能力，通过整合 E 和 G，我们的方法将预测向量空间与解耦的 W+ 空间对齐，为目标身份提供了语义级别的面部嵌入。

为了证明我们方法实现的 {预测 -W+- 图像} 对齐的合理性，我们进一步提供了实证可视化。具体来说，我们选择一个目标私有图像，沿着目标维度插值被分类为该目标的公共图像的预测向量（并且保持预测向量之和为 1），并可视化对应的重建图像。

显然，随着目标维度值的增加，重构的图像在视觉外观上逐渐接近目标图像，这恰好说明了预测和重构图像之间的对齐。这也与目标图像的 w 和重构图像 w 之间的距离 Dist_w 的减小也是一致的。

2.4 训练过程

在训练阶段，我们首先用图像重建任务中常用的像素级 L2 损失、LPIPS 损失、id 判别损失组成我们的重建损失，此外为了使中间特征更好地适应我们的 PAE 编码器，并防止 PAE 编码器无意义地过拟合，我们进一步加入了对齐正则化损失，通过两部分损失的约束来训练我们的 PAE 编码器。

2.5 攻击过程

实际上，在攻击阶段，对手只能获取目标标签（one-hot）。而我们从实验中发现，简单地输入 one-hot 预测将会导致极其糟糕的表现。

为了处理这个问题，我们认为：如果一个图像被归类为目标身份，那么它至少应该包含这个身份的部分特征属性。这启发了我们需要集成目标在不同公共图像中所包含的属性。

因此，我们提出了对齐集成攻击，以整合由预测 p 编码的潜在编码 w，以实现更好的重建。具体地，我们对不同公共图像的 w 编码以预测向量的最大值进行加权，得到集成后的 w 编码。

此外，我们还可以通过前述的插值的方式来显式增强目标身份的预测向量：m 是目标维度预测值增加的增强参数，同时为了确保预测向量的总和为 1，我们进一步调整其他非目标维度，这与 StyleGAN inversion 的可编辑性一致，即通过操控潜在空间中的方向向量，允许对属性的改变，从而进一步提高重建性能。

实验

3.1 标准设置

我们在常见的标准设置上进行了实验：即公开和私有数据来自同一数据集，没有身份重叠。实验结果表明，我们的方法取得了黑盒场景中的 SOTA 结果，大幅度缩小了和白盒场景结果的差距。

3.2 分布转移设置

我们还考虑了更实际的设置：公共数据集和私有数据集来自不同的分布。实验结果表明，我们的方法在三个数据集的分布转移中实现了 SOTA 性能，当攻击在 PubFig83 上训练的目标模型时，攻击准确度达到了 82%，这比之前 SOTA 的黑盒方法 RLB-MI 高出 32%，甚至超过了白盒方法 KED-MI。我们认为，PAE 编码器将预测向量空间和 StyleGAN 解耦的 W+ 空间对齐，能够很好的挖掘目标身份的预测向量所隐含的面部特征。

3.3 不同的目标模型

我们在分布转移的设置上进行了实验，比较了攻击不同模型架构的结果，对于所有目标模型架构，我们的方法的攻击准确率都始终高于其他基准：

3.4 查询成本比较

我们与不同方法的查询成本进行了比较。我们总共攻击了 300 个身份。可以清楚地看到，我们的查询只有 13 万，这大约只占 RLB-MI 的 0.36%，而与 label-only 场景的方法相比，减少了 99% 的查询次数。我们的方法只需少量的查询就能进行高性能逆向攻击，这对黑盒 MI 攻击的实际应用是一个重要的贡献。

3.5 其他实验

我们还比较了通过增加目标维度中公共预测向量的不同值 m 的结果。当 m=0 时，表示未对公共预测向量进行任何修改。随着 m 的增加，公共预测向量的目标维度值也会增加，同时攻击性能也会得到改善。然而，如果 m 继续增加，预测向量改变可能会使其偏离原始分布，导致性能下降。

3.6 可视化结果

我们可视化了不同方法的定性结果。与其他方法相比，我们逆向重建的图像明显更为逼真，并且分辨率质量更高，验证了对齐提供了目标身份的更多面部特征。我们尚未完全探索这种基于 StyleGAN 的训练范式在模型逆向（MI）攻击任务中的潜力。在未来，我们将继续探索 MI 攻击中潜在空间的本质，以进一步提高黑盒或 label-only 场景下的攻击性能。

参考文献

[1] Yang, Z., Zhang, J., Chang, E., Liang, Z.: Neural network inversion in adversarial
setting via background knowledge alignment. In: CCS. pp. 225–240. ACM (2019)

[2] Collins, E., Bala, R., Price, B., Susstrunk, S.: Editing in style: Uncovering the local
semantics of gans. In: Proceedings of the IEEE/CVF Conference on Computer
Vision and Pattern Recognition. pp. 5771–5780 (2020)

[3] Yao, X., Newson, A., Gousseau, Y., Hellier, P.: A style-based gan encoder for high
fidelity reconstruction of images and videos. In: European conference on computer
vision. pp. 581–597. Springer (2022)

[4] Liu, H., Song, Y., Chen, Q.: Delving stylegan inversion for image editing: A foun-
dation latent space viewpoint. In: Proceedings of the IEEE/CVF Conference on
Computer Vision and Pattern Recognition. pp. 10072–10082 (2023)

更多阅读