ACL 2024 | 大语言模型的安全对齐会适得其反？无需训练便能逆转安全对齐

©PaperWeekly 原创 · 作者 | 周展辉单位 | 上海人工智能实验室研究方向 | 语言模型安全对齐

论文链接：https://arxiv.org/abs/2402.12343

代码链接：

https://github.com/ZHZisZZ/emulated-disalignment
这项工作介绍了一种无需训练的攻击方法，通过访问语言模型的输出分布，即可逆转安全对齐，将更强的对齐结果转化为更大的潜在危害。具体而言，这个方法将安全对齐后模型（如 Llama-2-7b-chat）和预训练模型（例如 Llama-2-7b）的输出分布进行对比（contrastive）组合，从而使词元（token）的预测偏向于安全对齐的相反方向（图1）。我们将此方法命名为“模拟反向对齐”（emulated disalignment，ED），因为从理论上，从此分布中采样，能够有效模拟最小化安全奖励函数的微调结果。实验结果表明，“模拟反向对齐”对常用开源模型（Llama-1、Llama-2、Mistral 和 Alpaca）具有显著的攻击效果。进一步的可控实验发现，无需训练的“模拟反向对齐”（emulated disalignment）与基于训练的直接反向对齐（direct disalignment）在危害程度上近似。这一系列发现呼吁大家重新思考开源语言模型的策略，即使这些模型已经经过安全对齐。

▲ 图1：“模拟反向对齐”（emulated disalignment, ED）示意图

背景

我们将（对话型）语言模型的对齐视作一个在 KL 约束下的奖励函数最大化问题：

其中，是提问分布，是语言模型的回复，引导语言模型与人类价值对齐，限制微调后的模型与微调前模型的分布差异。

注：尽管此公式形式上只适用于强化学习微调，但它实际上适用于任何微调过程（例如 SFT），因为所有微调过程本质上都可以看作是在最大化某个奖励函数。

先前的工作证明了，, 与之间存在映射关系 [1]：

或等价得，

其中。

值得注意的是，这个映射关系不仅体现了语言模型和奖励函数的二象性，同时也蕴含一个重要的实际意义：公式（3）允许我们从语言模型的输出分布来“逆向工程”（reverse-engineer）未开源的奖励函数。例如我们可以用来近似 LLama-2 系列模型的奖励函数。

方法

我们的方法旨在说明逆向工程而来的奖励函数可以被攻击者恶意利用来得到一个危险模型，尤其当模型经过了安全对齐。1. 对于安全对齐前后的模型，可逆向工程获得一个安全奖励函数根据公式（3）中奖励函数与语言模型之间的二象性，逆向工程得到的奖励函数应当反映出模型的微调原则（）。鉴于安全对齐的目标是增强对有害问题的回复安全性，以及提升对安全问题的回复有用性，因此应该作为一个安全奖励函数，在有害问题问题上惩罚有害回复，并在安全问题上促进有用回复。我们专注于前者，探讨这种奖励是如何支持恶意的对抗攻击。2. 反向对齐：最小化此安全奖励函数可获得一个危险的语言模型给定一个惩罚危险回复的安全奖励函数，我们可以通过奖励函数最小化（而非奖励函数最大化，请留意公式中的负号）来微调得到一个有害的模型：

其中，是一个正的超参数，用于权衡奖励与约束两者的最小化。我们将这个奖励最小化问题定义为“反向对齐”（disalignment），因为它将语言模型向对齐的反方向引导。通常，解决此问题需要资源密集型的训练（例如，强化学习）。然而，我们将展示此优化结果（）可以在无需训练的情况下被高效地模拟，从而形成一个高风险的攻击框架。3. 通过采样来模拟反向对齐结合公式（4）,（2）和（3），我们可以用闭式解表达反向对齐的结果而无需任何训练：

尽管公式（8）是一个序列级分布，和大语言模型自回归生成的特性并不兼容，但我们可以利用逐词元的近似技巧 [2]，从以下自回归分布中采样以对进行近似；

方法总结本质上，公式（9）提供了逆转安全对齐所需的全部内容：我们的方法核心是一个简单的采样分布，结合了安全对齐和预训练语言模型的输出分布。我们将这种方法称为“模拟反向对齐”（Emulated Disalignment, ED），因为它无需训练就能模拟反向对齐的效果。

除了通过奖励最小化解释外，公式（9）能够输出有害内容也可以从对比解码的角度理解。通过对比预训练模型和安全对齐模型的输出分布，我们实际上是在用安全对齐模型中较少的有害性放大了预训练模型中的有害性。

实验

开源模型实验

▲ 表1：ED 显著提升了模型的危险性

▲ 图2：ED 消融实验

模拟反向对齐 vs. 直接反向对齐
▲ 图3：无需训练的模拟反向对齐（emulated disalignment）与基于训练的直接反向对齐（direct disalignment）的对比实验；两者在危害程度上相似，但前者成本远低于后者

结论

这项工作提出了一种推理时的攻击方法，模拟反向对齐（emulated disalignment，ED），通过对比安全对齐的语言模型与其预训练版本的输出词分布，逆转安全对齐的效果，从而在不进行额外训练的情况下产生有害的语言模型。不过，此方法要求攻击的模型使用相同的分词器，并能访问每个词元的输出概率。未来工作可以基于此设计更适合黑盒语言模型的反向对齐方案 [4]。

参考资料

[1] Rafailov, Rafael, et al. "Direct preference optimization: Your language model is secretly a reward model." Advances in Neural Information Processing Systems 36 (2024).[2] Mitchell, Eric, et al. "An emulator for fine-tuning large language models using small language models." arXiv preprint arXiv:2310.12962 (2023).[3] Li, Xiang Lisa, et al. "Contrastive decoding: Open-ended text generation as optimization." arXiv preprint arXiv:2210.15097 (2022).[4] Zhou, Zhanhui, et al. "Weak-to-Strong Search: Align Large Language Models via Searching over Small Language Models." arXiv preprint arXiv:2405.19262 (2024).

更多阅读