多模态安全偏好对齐数据集SPA-VL,全方位提升多模态大模型安全能力


随着人工智能技术的飞速发展,多模态模型(Large Multi-modal Models, MLLMs)凭借其在视觉与语言信息处理上的卓越能力,已经成为研究领域的热点话题。然而,技术进步的同时,这些模型的安全性问题也日益受到全球研究者的关注。


近期,中国科学技术大学、复旦大学和上海人工智能实验室的联合研究团队,针对这一挑战,提出了创新性的解决方案——SPA-VL 数据集,为多模态模型的安全性研究树立了新的里程碑。


SPA-VL 数据集是首个专为多模态模型安全性对齐训练设计的大规模、高质量数据集。SPA-VL 数据集由四个部分组成:一个包含 9 万样本的训练集、7 千样本的验证集,以及两个测试集——HarmEval(265 样本,专注于有害问题)和 HelpEval(主要评估模型的有用性)SPA-VL 数据集不仅全面覆盖了广泛的有害内容类型,还通过精心设计的分类框架,为精确的有害内容检测和响应对齐提供了坚实的基础。其创新之处体现在以下几个方面:


  • 全面性:数据集涵盖了 6 个主要领域、15 个次要类别和 53 个三级类别,全面覆盖了有害内容的各个方面。
  • 多样性:12 个不同的多模态模型中收集回答,增强了数据的多样性,有效减少了特定模型偏见。同时,每张图片都配备了 3 种不同难度的问题,进一步丰富了数据的深度。
  • 多目标对齐:在设计上同时考虑了模型的无害性有用性,确保在提升安全性的同时,不牺牲模型的实用性。
▲ SPA-VL 数据概况,左图是有害内容分类的框架,右表是有害分类的每个二级分类的信息统计。UR% 是数据不安全的比例,CP 是 Choose Preference,RP 是 Reject Preference.


通过对 SPA-VL 数据集进行的一系列实验,研究团队发现其在提升多模态模型安全性方面具有显著效果。实验结果表明,经过 SPA-VL 训练的模型,在保持其基本能力的同时,显著提高了安全能力,同时增强了回答的有用性


此外,实验还揭示了随着训练数据量的增加,模型性能呈现出正向增长的趋势。特别是在第一目标(无害性)达到饱和后,第二目标(有用性)仍在持续提高,这强调了大规模数据集在提升模型能力方面的关键作用。研究进一步指出,训练数据中需要同时包含表现较弱和较强的模型回答,这再次强调了数据多样性的重要性。论文地址:https://arxiv.org/abs/2406.12030

数据集地址:

https://huggingface.co/datasets/sqrti/SPA-VL

代码地址:

https://github.com/EchoseChen/SPA-VL-RLHF

主页地址:

https://sqrtizhang.github.io/SPA-VL/

权重地址:

https://huggingface.co/superjelly

数据构造

SPA-VL 的创建涉及三个关键阶段:


  1. 图片搜集:从 Laion5b 数据库中系统地收集多样化的图像,通过同义词扩展和人工筛选,确保图像的多样性和质量,同时排除了分辨率过低和含有不当内容的图片。

  2. 问题构造:这一阶段的目标是为每张图片生成与其内容相关的有害问题。首先,研究者们利用 Gemini 根据图片生成描述,然后基于这些描述生成针对图片潜在不安全种类的简单问题(Easy Question)。为了增加问题的复杂性和挑战性,研究者们采用 “jailbreak” 技术引导 Gemini 生成更深层次的有害问题(Hard Question)。同时,考虑到实际应用中人们常以陈述句形式与模型交流,研究者们也生成了有害引导的陈述句(Hard Statement)。

  3. 偏好构建:在多模态对齐中,我们采用了统一的数据格式 <v, q, c, r>,分别代表图片(v)、问题(q)、选择的回答(c)和拒绝的回答(r)。对于每一对图片和问题,我们从 12 个多模态模型中收集回答。为了保证回答的多样性,我们对 Gemini 进行了 “jailbreak”,确保至少有一个模型的回答包含不安全的内容。在收集到的模型回答中,我们随机选择了两个回答,并由 GPT4-V 根据回答的无害性和有用性进行评估,从而确定了最终的 Choose 和 Reject 回答。

▲ SPA-VL数据构造由图片搜集,问题构造,偏好构造三部分组成

数据样例

这里展示了两个 SPA-VL 中的数据,左图展示的是 Easy Question 的问题,P-C 是 Choose 的回答,它不仅无害,而且提供了有用的信息,符合我们对模型的期望,P-R 是 Reject的回答,可以看到 reject 的回答是毫无帮助性的。右图展示的是 Hard Question 的问题。这里可以看到 Hard Question 比 Easy Question 更具有危害性。



实验结果

研究者们在 LLAVA 模型上使用 SPA-VL 数据集进行了对齐训练。实验采用了视觉模态的 MM-SafetyBench 和语言模态的 AdvBench 作为公开安全基准,以及研究者们自建的视觉基准 HarmEval,所有评估均以攻击成功率(ASR)作为评测指标。


总的来说,无论是采用 PPO 还是 DPO 方法,训练后的模型在三个基准上均取得了接近满分的卓越成绩。与现有 SFT 数据集(LLaVA+VLGuard-SFT)训练的结果相比,SPA-VL 数据集训练的模型表现明显更优,这证明了 SPA-VL 数据集在提升多模态模型安全性方面的有效性。


为了进一步验证图片数据的必要性,研究者们进行了一项对照实验,仅使用文本数据对 LLaVA 模型进行训练(LLaVA+HH-Harmless-PPO)。结果显示,虽然文本训练提升了模型在 MM-SafetyBench 文本维度上的安全性,但别视觉维度并没有提升。这说明图片数据的加入对于整体安全性的提升起到了决定性作用。

此外,研究者们还提供了训练前后模型输出的样例,直观地展示了 SPA-VL 数据集对模型安全性和有用性提升的显著效果。LLaVA 模型在未训练前的回答与经过 SPA-VL 数据集 DPO 和 PPO 训练后的输出对比明显,无论是 PPO 还是 DPO 算法,都能有效地提高模型的安全性。特别是 PPO 训练后的模型回答,在保持安全性的同时,更具有丰富的帮助性

此外,研究者们还对训练数据的量级做了分析,如下图, 随着训练数据量的增加,模型的有害性(a,b,c)逐渐降低,模型的有用性(d)逐步提高。可以看到,模型的有害性在 30K 的量级时即达到了很低的水准,但有用性却一直稳步提高。这个和对齐的标准是一致的,在偏好标注时,先选无害的回答,在回答都是无害的情况下,选有用的回答。

随后,研究者们对数据集的构成进行了分析。


下表展示了数据构建时不同安全程度的模型回答抽取对最终结果的影响,可以看到,如果混合使用不同安全等级的模型生成的回答(Relative Safe,共 5 个模型),最终得到的数据集在安全性上表现会更好。这比只使用最安全的模型生成的回答(Safe,由最安全的 3 个模型的回答组成)或者只使用最不安全的模型生成的回答(Unsafe,由最不安全的 5 个模型的回答组成)要强。这说明在构建数据集时,包含不同类型回答的多样性对于提高整体安全性是有帮助的。

此外,研究者们还研究了问题类型(Easy Question、Hard Question、Hard Statement)对数据集效果的影响。如下表在相同数据规模下,混合问题的数据集训练的模型比任何一个单独问题的数据集训练的模型的安全性能都好。这充分说明了问题多样性的重要性。

SPA-VL 的推出,不仅为多模态安全研究提供了坚实的基础,也为开源模型安全性的提升开辟了新的道路。研究者们期待这一成果能够激发更多关于AI安全性的深入探讨和研究。

更多阅读



#投 稿 通 道#

 让你的文字被更多人看到 



如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。


总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 


PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。


📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算


📬 投稿通道:

• 投稿邮箱:hr@paperweekly.site 

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿


△长按添加PaperWeekly小编



🔍


现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧


···

相关推荐

  • 小红书「REDstar顶尖人才计划」全球启动!
  • LLama+Mistral+…+Yi=? 免训练异构大模型集成学习框架DeePEn来了
  • 华为GTS LocMoE+:高可扩展性亲和度 MoE 架构,低开销实现主动路由
  • 小模型卷起来了:Mistral联合英伟达开源12B小模型,128k上下文
  • GPT-4o mini一手测评:懂得不多,但答得极快
  • 完蛋,我被数字同事包围了!小冰AI数字员工再升级,零样本定制,即时上岗
  • 如何用Paramiko和多线程让SSH远程命令飞一般执行?
  • 【Python】十大Python可视化工具,太强了
  • 【机器学习】机器学习分类模型决策边界,MLxtend轻松绘制!
  • 为什么现在很多人想读博了?读博有什么用?
  • 给你的 H5 页面加上惯性滚动吧!
  • 不用 JS,轻松锁定页面滚动!
  • RAG中的Query改写思路之查询-文档对齐评分优化:兼看昨日大模型进展总结回顾
  • 统计学入门:时间序列分析基础知识详解
  • 李飞飞创业:3 个月估值破 10 亿美元
  • CVPR 2024 录用数据出炉!这几个方向爆火 。。。
  • 假开源真噱头?Meta再陷「开源」争议,LeCun被炮轰Meta只是开放模型
  • 清华提出时间序列大模型:面向通用时序分析的生成式Transformer | ICML 2024
  • xAI创立未足年,创始工程师Kosic离职重返老东家OpenAI,巨头人才之战热度升级
  • 「数据墙」迫近?苹果OpenAI等巨头走投无路,被迫「偷师」YouTube视频!