多模态安全偏好对齐数据集SPA-VL，全方位提升多模态大模型安全能力

随着人工智能技术的飞速发展，多模态模型（Large Multi-modal Models, MLLMs）凭借其在视觉与语言信息处理上的卓越能力，已经成为研究领域的热点话题。然而，技术进步的同时，这些模型的安全性问题也日益受到全球研究者的关注。

近期，中国科学技术大学、复旦大学和上海人工智能实验室的联合研究团队，针对这一挑战，提出了创新性的解决方案——SPA-VL 数据集，为多模态模型的安全性研究树立了新的里程碑。

SPA-VL 数据集是首个专为多模态模型安全性对齐训练设计的大规模、高质量数据集。SPA-VL 数据集由四个部分组成：一个包含 9 万样本的训练集、7 千样本的验证集，以及两个测试集——HarmEval（265 样本，专注于有害问题）和 HelpEval（主要评估模型的有用性）。SPA-VL 数据集不仅全面覆盖了广泛的有害内容类型，还通过精心设计的分类框架，为精确的有害内容检测和响应对齐提供了坚实的基础。其创新之处体现在以下几个方面：

全面性：数据集涵盖了 6 个主要领域、15 个次要类别和 53 个三级类别，全面覆盖了有害内容的各个方面。
多样性：从 12 个不同的多模态模型中收集回答，增强了数据的多样性，有效减少了特定模型偏见。同时，每张图片都配备了 3 种不同难度的问题，进一步丰富了数据的深度。
多目标对齐：在设计上同时考虑了模型的无害性和有用性，确保在提升安全性的同时，不牺牲模型的实用性。

▲ SPA-VL 数据概况，左图是有害内容分类的框架，右表是有害分类的每个二级分类的信息统计。UR% 是数据不安全的比例，CP 是 Choose Preference，RP 是 Reject Preference.

通过对 SPA-VL 数据集进行的一系列实验，研究团队发现其在提升多模态模型安全性方面具有显著效果。实验结果表明，经过 SPA-VL 训练的模型，在保持其基本能力的同时，显著提高了安全能力，同时增强了回答的有用性。

此外，实验还揭示了随着训练数据量的增加，模型性能呈现出正向增长的趋势。特别是在第一目标（无害性）达到饱和后，第二目标（有用性）仍在持续提高，这强调了大规模数据集在提升模型能力方面的关键作用。研究进一步指出，训练数据中需要同时包含表现较弱和较强的模型回答，这再次强调了数据多样性的重要性。

论文地址：https://arxiv.org/abs/2406.12030

数据集地址：

https://huggingface.co/datasets/sqrti/SPA-VL

代码地址：

https://github.com/EchoseChen/SPA-VL-RLHF

主页地址：

https://sqrtizhang.github.io/SPA-VL/

权重地址：

https://huggingface.co/superjelly

数据构造

SPA-VL 的创建涉及三个关键阶段：

图片搜集：从 Laion5b 数据库中系统地收集多样化的图像，通过同义词扩展和人工筛选，确保图像的多样性和质量，同时排除了分辨率过低和含有不当内容的图片。
问题构造：这一阶段的目标是为每张图片生成与其内容相关的有害问题。首先，研究者们利用 Gemini 根据图片生成描述，然后基于这些描述生成针对图片潜在不安全种类的简单问题（Easy Question）。为了增加问题的复杂性和挑战性，研究者们采用 “jailbreak” 技术引导 Gemini 生成更深层次的有害问题（Hard Question）。同时，考虑到实际应用中人们常以陈述句形式与模型交流，研究者们也生成了有害引导的陈述句（Hard Statement）。
偏好构建：在多模态对齐中，我们采用了统一的数据格式 <v, q, c, r>，分别代表图片（v）、问题（q）、选择的回答（c）和拒绝的回答（r）。对于每一对图片和问题，我们从 12 个多模态模型中收集回答。为了保证回答的多样性，我们对 Gemini 进行了 “jailbreak”，确保至少有一个模型的回答包含不安全的内容。在收集到的模型回答中，我们随机选择了两个回答，并由 GPT4-V 根据回答的无害性和有用性进行评估，从而确定了最终的 Choose 和 Reject 回答。

▲ SPA-VL数据构造由图片搜集，问题构造，偏好构造三部分组成

数据样例

这里展示了两个 SPA-VL 中的数据，左图展示的是 Easy Question 的问题，P-C 是 Choose 的回答，它不仅无害，而且提供了有用的信息，符合我们对模型的期望，P-R 是 Reject的回答，可以看到 reject 的回答是毫无帮助性的。右图展示的是 Hard Question 的问题。这里可以看到 Hard Question 比 Easy Question 更具有危害性。

实验结果

研究者们在 LLAVA 模型上使用 SPA-VL 数据集进行了对齐训练。实验采用了视觉模态的 MM-SafetyBench 和语言模态的 AdvBench 作为公开安全基准，以及研究者们自建的视觉基准 HarmEval，所有评估均以攻击成功率（ASR）作为评测指标。

总的来说，无论是采用 PPO 还是 DPO 方法，训练后的模型在三个基准上均取得了接近满分的卓越成绩。与现有 SFT 数据集（LLaVA+VLGuard-SFT）训练的结果相比，SPA-VL 数据集训练的模型表现明显更优，这证明了 SPA-VL 数据集在提升多模态模型安全性方面的有效性。

为了进一步验证图片数据的必要性，研究者们进行了一项对照实验，仅使用文本数据对 LLaVA 模型进行训练（LLaVA+HH-Harmless-PPO）。结果显示，虽然文本训练提升了模型在 MM-SafetyBench 文本维度上的安全性，但别视觉维度并没有提升。这说明图片数据的加入对于整体安全性的提升起到了决定性作用。

此外，研究者们还提供了训练前后模型输出的样例，直观地展示了 SPA-VL 数据集对模型安全性和有用性提升的显著效果。LLaVA 模型在未训练前的回答与经过 SPA-VL 数据集 DPO 和 PPO 训练后的输出对比明显，无论是 PPO 还是 DPO 算法，都能有效地提高模型的安全性。特别是 PPO 训练后的模型回答，在保持安全性的同时，更具有丰富的帮助性。

此外，研究者们还对训练数据的量级做了分析，如下图, 随着训练数据量的增加，模型的有害性（a,b,c）逐渐降低，模型的有用性（d）逐步提高。可以看到，模型的有害性在 30K 的量级时即达到了很低的水准，但有用性却一直稳步提高。这个和对齐的标准是一致的，在偏好标注时，先选无害的回答，在回答都是无害的情况下，选有用的回答。

随后，研究者们对数据集的构成进行了分析。

下表展示了数据构建时不同安全程度的模型回答抽取对最终结果的影响，可以看到，如果混合使用不同安全等级的模型生成的回答（Relative Safe，共 5 个模型），最终得到的数据集在安全性上表现会更好。这比只使用最安全的模型生成的回答（Safe，由最安全的 3 个模型的回答组成）或者只使用最不安全的模型生成的回答（Unsafe，由最不安全的 5 个模型的回答组成）要强。这说明在构建数据集时，包含不同类型回答的多样性对于提高整体安全性是有帮助的。