代码链接:
https://github.com/ZHZisZZ/emulated-disalignment背景
我们将(对话型)语言模型的对齐视作一个在 KL 约束下的奖励函数最大化问题:其中, 是提问分布, 是语言模型的回复, 引导语言模型与人类价值对齐, 限制微调后的模型 与微调前模型 的分布差异。注:尽管此公式形式上只适用于强化学习微调,但它实际上适用于任何微调过程(例如 SFT),因为所有微调过程本质上都可以看作是在最大化某个奖励函数。
先前的工作证明了,, 与 之间存在映射关系 [1]: 或等价得, 其中 。值得注意的是,这个映射关系不仅体现了语言模型和奖励函数的二象性,同时也蕴含一个重要的实际意义:公式(3)允许我们从语言模型的输出分布来“逆向工程”(reverse-engineer)未开源的奖励函数。例如我们可以用 来近似 LLama-2 系列模型的奖励函数。
除了通过奖励最小化解释外,公式(9)能够输出有害内容也可以从对比解码的角度理解。通过对比预训练模型和安全对齐模型的输出分布,我们实际上是在用安全对齐模型中较少的有害性放大了预训练模型中的有害性。
实验
开源模型实验▲ 表1:ED 显著提升了模型的危险性 ▲ 图2:ED 消融实验模拟反向对齐 vs. 直接反向对齐
▲ 图3:无需训练的模拟反向对齐(emulated disalignment)与基于训练的直接反向对齐(direct disalignment)的对比实验;两者在危害程度上相似,但前者成本远低于后者这项工作提出了一种推理时的攻击方法,模拟反向对齐(emulated disalignment,ED),通过对比安全对齐的语言模型与其预训练版本的输出词分布,逆转安全对齐的效果,从而在不进行额外训练的情况下产生有害的语言模型。不过,此方法要求攻击的模型使用相同的分词器,并能访问每个词元的输出概率。未来工作可以基于此设计更适合黑盒语言模型的反向对齐方案 [4]。
参考资料
[1] Rafailov, Rafael, et al. "Direct preference optimization: Your language model is secretly a reward model." Advances in Neural Information Processing Systems 36 (2024).[2] Mitchell, Eric, et al. "An emulator for fine-tuning large language models using small language models." arXiv preprint arXiv:2310.12962 (2023).[3] Li, Xiang Lisa, et al. "Contrastive decoding: Open-ended text generation as optimization." arXiv preprint arXiv:2210.15097 (2022).[4] Zhou, Zhanhui, et al. "Weak-to-Strong Search: Align Large Language Models via Searching over Small Language Models." arXiv preprint arXiv:2405.19262 (2024).更多阅读
#投 稿 通 道#
让你的文字被更多人看到
如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。
总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。
PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。
📝 稿件基本要求:
• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注
• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题
• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算
📬 投稿通道:
• 投稿邮箱:hr@paperweekly.site
• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者
• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿
△长按添加PaperWeekly小编
🔍
现在,在「知乎」也能找到我们了
进入知乎首页搜索「PaperWeekly」
点击「关注」订阅我们的专栏吧