谷歌重磅发布 PaLI-3,四两拨千斤!

夕小瑶科技说 原创
作者 | 智商掉了一地、ZenMoore
视觉语言模型(VLM)的参数规模已经扩展到数百亿,甚至数千亿,这使得其性能持续提升。然而,小规模模型仍然非常重要,因为它们更便于训练和部署,对环境影响较小,同时也能支持模型设计研究的快速迭代。

近期的大型 VLM 中,预训练的图像编码器是模型的重要组成部分。其中,一部分模型通过监督分类进行预训练,如 PaLI、PaLI-X、Flamingo和PaLM-E。另一部分模型则使用预训练过的 CLIP 编码器,如 BLIPv2 和 ChatBridge。还有一些模型采用定制的多模态预训练,如 BEiT3、CoCa 和 SimVLM。

在本文中,主要比较了两种使用 PaLI 框架对图像编码器进行预训练的方法。

  • 使用大型弱标签数据集进行分类预训练,如 JFT。
  • 在网络级别的噪声数据上进行对比预训练,如 WebLI。

这篇文章向我们介绍了PaLI-3,这是一款小巧、快速且强大的视觉语言模型,它的性能甚至超过了那些体积大10倍的类似模型。

论文题目:
PALI-3 Vision Language Models: Smaller, Faster, Stronger

论文链接:
https://arxiv.org/abs/2310.09199

文章速览

比较了使用分类目标预训练的视觉 Transformer(ViT)模型和对比预训练的 SigLIP 模型。在视觉编码器之外,使用的预训练模型只有 50 亿的总参数量(视觉+语言模型两个部分总共 5B),但优化了训练方法。新训练方法包括三个主要部分:

  1. 在网络规模的图像文本数据上对图像编码器进行对比预训练
  2. 改进了用于 PaLI 多模态训练的数据集混合
  3. 进行了更高分辨率的训练

实验发现,尽管在标准图像分类基准上,基于 SigLIP 的 PaLI 的表现稍微逊色一些,但在多模态基准上,尤其是在定位和文本理解方面,它的性能卓越。文中使用的 SigLIP 编码器是使用了 20 亿个参数的扩展版模型,它在跨语言多模态检索上取得了最新的最佳成果。这个只有 50 亿参数的 PaLI-3,重新激发了对复杂 VLM 基本组成部分的研究,并可能推动新一代规模化模型的发展。

PaLI-3 在多项任务上取得了新的 SOTA 效果,包括需要视觉定位文本理解和对象定位的 8 项任务,以及在 RefCOCO 上的指称表达分割任务。同时,PaLI-3 在各种经典视觉任务上也展现出强大的性能。主要贡献如下:

  1. 使用PaLI框架,将分类预训练的 ViT 模型和对比预训练的 SigLIP 模型进行了比较。结果显示,对比预训练的模型在处理视觉定位的文本理解任务和定位任务上,表现更佳
  2. 在超过10种视觉语言基准测试中,都取得了 SOTA 的表现。与当前的 SOTA 模型相比,该模型尺寸小了 10 倍。特别是在理解视觉定位的文本方面,我们的模型表现出显著的改进。
  3. 尽管该模型没有在任何视频数据上进行预训练,但在多个视频 QA 基准测试中,它都实现了新的 SOTA,因此模型具有强大的泛化能力
  4. 作者还推出了一个在 WebLI 上训练的 2 亿参数的多语言 SigLIP 模型(ViT-G)。这个模型在多语言跨模态检索基准测试中,实现了新的 SOTA。

模型

视觉编码器

文中使用了 SigLIP 的训练方法,对 ViT-G/142 模型进行对比预训练,从而初始化 PaLI-3 的视觉主干,这个模型大约有 20 亿个参数。

简单来说,作者训练了一个图像嵌入 ViT-G/14 和一个文本嵌入转换器,它们分别对图像和文本进行嵌入。通过使用图像和文本嵌入的点积的 S 形交叉熵的二分类器,以准确判断图像和文本是否相对应。这种方法与 CLIP 和 ALIGN 相似,但已被证明更高效、可扩展和稳健。这样做的目的是预训练 ViT 图像嵌入组件,因此在将ViT插入到PaLI时,会丢弃文本嵌入转换器。

完整的PaLI模型

ViT 图像编码器在池化前的输出构成了视觉 token。这些视觉 token 经过线性投影后,被添加到嵌入的输入文本 token 之前。然后,这些 token 一起输入到预训练的拥有 30 亿参数的 UL2 编码器-解码器语言模型中,由此模型生成文本输出。

模型的文本输入通常包含一个提示,用于描述任务类型。同时,文本输入还会包含任务内容

训练阶段

训练程序类似于 PaLI 和 PaLI-X,由多个阶段组成:

阶段0:单模态预训练。

作者按照 SigLIP 的训练协议对网络上的图像-文本对进行对比度预训练,以训练图像编码器。采用了类似于 Schuhmann 等人(2021年)的基于模型的过滤方法,保留了大约 40% 的图像-文本对。图像编码器的训练分辨率为224×224。文本编码器-解码器采用的是3B UL2模型,按照 Yi Tay等人(2023年)描述的降噪器混合过程进行训练。

阶段1:多模态训练

将图像编码器和文本编码器-解码器组合在一起在多模态任务和数据混合的基础上训练PaLI模型。此过程中,保持图像编码器的冻结状态,并使用其原生的 224×224 分辨率。

再次从WebLI数据集中提取主要混合成分。这是通过对文本质量进行启发式过滤并使用SplitCap训练目标来实现的。

需要注意,这里并没有包括来自视频的任务或数据,这部分工作是在PaLI-X中完成的。但是,由于其强大的图像编码器,PaLI-3 在这些基准测试中仍然保持了有竞争力的性能。

最后,通过用 100 多种语言的 PDF 文档和被描述为海报或文档的网络图像来丰富WebLI,从而进一步提高了文档和文本理解能力。

▲图1:PaLI-3 (5B)模型的概述

阶段2:分辨率提高

作者通过微调整个模型(解冻图像编码器)并逐步提高分辨率,使 PaLI-3 的分辨率得以提升,同时我们保留了分辨率为 812×812 和 1064×1064 的检查点。数据混合主要集中在视觉定位文本和对象检测的部分。

任务专业化(迁移)

最后,作者会针对每个单独的任务,按照相关部分的描述,使用冻结的ViT图像编码器对PaLI-3模型在任务的训练数据上进行微调。

实验

分类还是对比预训练的ViT?

在PaLI框架下对不同的ViT模型进行了对比分析。这些ViT模型主要有两种:

  • 在JFT数据集上进行预训练的分类模型(“Classif”)
  • 在WebLI数据集上进行对比预训练的模型(“SigLIP”)

为了节省计算资源,实验只包括第一阶段。此外,将第一阶段的时间缩短到了全文后续使用的完整PaLI-3时间表的20%。

表1的结果揭示了一个清晰的总体趋势:SigLIP模型在few-shot线性分类上的表现不尽如人意,但在PaLI-3的应用中,它在字幕和问答等“简单”任务上有适度的提升,而在更“复杂”的场景文本和空间理解任务(如TextVQA和RefCOCO变体)上有显著的提升。这促使我们从分类预训练的图像编码器转向使用S形对比预训练的编码器来构建PaLI-3。

▲表1:在多种任务中,使用相同PaLI设置的对比预训练模型“SigLIP”和分类预训练ViT图像编码器“Classif”的性能对比

视觉情境下的文本理解

作者对PaLI-3进行了视觉定位的文本理解任务评估,这些任务包括 TextCaps、TextVQA、STVQA、OCRVQA、InfographicVQA、DocVQA、ChartQA、Scree2Words 和 WidgetCap。所涉及的数据集中的图像覆盖了多个领域,包括自然图像、插图、文档以及用户界面。

在视觉定位的文本理解方面,作者利用外部 OCR 系统提供图像的 OCR 注释,这作为模型的额外输入,可以提升性能。使用的 OCR 注释,是通过与训练集相同的服务获取的。如表 2 所示,实验表明,图像编码器已经学习到了强大的内在 OCR 能力。无论是否有外部 OCR 输入,PaLI-3 在大多数字幕和 VQA 基准测试中都实现了最先进的性能。

▲表2:更专注于理解视觉情境文本的基准测试结果

指代表达分割

作者对PaLI-3进行了扩展,使其具备通过类似语言的输出预测分割掩码的能力。为实现这一目标,采用了 2023 年提出的 VQ-VAE。首先,PaLI-3 会输出 4 个坐标,这些坐标以文本形式表示一个边界框。接下来,它会输出 16 个掩码 token,这些 token 代表边界框内的掩码。

作者对 PaLI-3 进行了微调,每个训练样本包含一个指代表达式和一个带有分割掩码的框,使用提示来引导 PaLI。目标序列包含 16 个介于 0 和 127 之间的掩码 token,这些 token 是由 VQ-VAE 编码器生成的,输入是裁剪并调整到 64×64 大小的分割掩码。

表 1 的结果显示,对于这类定位任务,对比预训练的效果远超分类预训练。而表 3 则表明,完整的 PaLI-3 模型在指代表达分割方面,能够微弱超越当前的最优技术。

▲表3:RefCOCO 变体的 PaLI 参考表达分割结果。所有结果都是在 val 分割上的 mIoU

自然图像理解

作者还对 PaLI-3 进行了评估。这个评估涵盖了一般视觉语言理解任务,包括以一般视觉理解为目标的 COCO 字幕和 VQAv2。同时,还包括专注于基于知识的理解的 OKVQA,以及在文本指导下测量计数性能的 TallyQA。和之前的研究一样,这些测试没有使用外部 OCR 模块,因为很少涉及到图像中的文本。

总的来说,尽管 PaLI-3 的模型尺寸相较于最新的 SOTA 模型显著较小,但其在这些基准测试中的表现很出色。

▲表4:在 COCO Captions(Karp.)、VQAv2、OKVQA 和 TallyQA 上的结果

视频字幕和问答

作者对 PaLI-3 模型进行了微调和评估,测试对象包括 4个视频字幕基准,以及也在 3 个视频问答基准上进行了测试。

虽然 PaLI-3 并未使用视频数据进行预训练,但其在小规模模型下依然取得了优秀的视频问答结果。同时,PaLI-3 在视频字幕方面也有不错的表现,平均只比最先进技术低一些。考虑到模型规模,无论是从性能还是实用性来看,PaLI-3 都是一个优秀的选择。

▲表5:使用最多 16 帧进行视频字幕和视频问答的结果

直接图像编码器评估

我们的目标是直接评估已学习的图像编码器即 ViT-G 模型,而非完整的 PaLI-3 模型,这个过程中并未使用其他语言模型。所有的结果都在表 6 中进行了汇总。

总的来说,这些结果展示了一个明确的趋势:在标准分类任务的评估中,最优秀和最大的分类预训练图像编码器表现得稍微更好。但是,对于视觉语言任务,它们的表现明显不如 SigLIP 预训练图像编码器

模型公平性、偏见和其他潜在问题

作者在最后还对模型的公平性、偏差和其他可能的问题进行了评估。

  1. 利用 MIAP 和 FairFace 数据集生成标题。
  2. 使用 Perspective API(阈值大于0.8)来测量有害性、亵渎以及其他可能的问题。

在表 7(FairFace)和表 8(MIAP)中总结了结果。总之,在所有部分中都发现了较低水平的有害性和亵渎等问题,与 PaLI-X 的结果相当。

▲表7:PaLI-3 在 FairFace 上生成的字幕的 RAI 统计数据▲表8:PaLI-3 在 MIAP 上生成的字幕中的 RAI 得分统计数据

作者还评估了模型本身的人口统计均等水平(人口统计组内平均对数困惑得分的差异)。参照前人研究,将 CelebA 数据集的图像输入到 PaLI-3 中,选择职业作为前缀。然后,记录模型生成的平均对数困惑得分。

图2总结了这些结果:与 PaLI-X 相似,PaLI-3 在大多数职业中,都倾向于给女性比男性更高的对数困惑得分。然而,相比于 PaLI-X,PaLI-3 中超出平均值 ±2 标准差区间的职业更少。

▲图2:PaLI-3 的 CelebA 图像输出中的人口统计均等水平(DP),比较女性和男性之间的平均对数困惑度

作者最后还使用 MIAP 数据集对所有子组在检测任务上的性能进行了比较。对于只有一个人的图片,向 PaLI-3 提出问题:“这张图片里有人吗?”然后评估其回答的准确性。表 9 列出了这些结果。所有子组的错误率(假阴性)都非常低。

▲表9:在MIAP数据集的子集中,PaLI-3对“人”检测的错误率

总结

多模态理解能力主要分为两大类:

  • 自然场景理解(包括字幕、VQA、对象检测/定位)
  • 视觉定位文本理解(如文档和信息图 QA)

这两类任务需要不同粒度的理解。过去的 VLM 主要专注于其中一类任务,因此他们的训练方法也主要适应这类任务。然而,最近的 PaLI-X 通过改进的 OCR 相关训练方法和更大的 550 亿参数模型,在这两类任务上都实现了 SOTA 级别的性能。

在这项工作中,将对比预训练的 ViT 的优势与进一步改进和平衡的训练方法结合到 PaLI-3 中。实验证明,即使在 50 亿参数规模下,也能在上述两类多模态理解任务上实现 SOTA 级别的性能。

本文深入探讨了大型 VLM 中图像编码器的预训练,尤其是 PaLI 模型。作者首次通过对照实验,明确比较了分类预训练和图像-文本(对比)预训练两种方法。结果发现,图像-文本预训练能带来更优秀、更高效的VLM,特别是在定位和文本理解任务上。

这只是VLM训练众多方面中的一个小部分,我们希望这项研究和结果能推动对VLM训练其他方面的深入研究。

相关推荐

  • AI顶会论文「遥遥领先」,只因我做出了一项「违背祖宗」的决定
  • 【CVPR2023】CapDet:融合密集字幕生成与开放世界检测预训练
  • 为什么 Git 这么难?
  • 奖池高达 35 万元!1024 “超级码工厂编程大赛”重磅来袭
  • 5000亿,游戏史上最大收购案诞生
  • 微调TrOCR,训练TrOCR能识别弯曲和模糊文本
  • C++库文件和头文件编写教程
  • 10节课+200篇论文!实战深度学习热门领域
  • 直播来袭 | 微盟技术沙龙-数字化时代下的SaaS SCRM系统实战
  • 国美APP抽奖弹窗辱骂创始人;小米14系列或搭载MIOS;知名开发者遭微软MVP项目组除名;DHH锐评:前端根本不需要构建
  • 我用过很多代码生成器,还是选了他
  • 2023 年 Serverless 状态报告发布:采用率大幅增长
  • 代码生成:基于 AI 大模型的挑战与前景
  • 创新风潮迭起,2023深圳国际金融科技大赛——西丽湖金融科技大学生挑战赛正式启动
  • 谷歌如何释放和衡量开发人员的生产力
  • 大模型时代下的技术变革:训练、负载、部署、效率、安全……都遇到了新挑战?
  • 20 个最频繁使用的 Python 代码片段
  • GPT-4肆虐「谁是卧底」桌游!交谈逼真,类人属性仍有发展空间
  • 碾压GPT-4,微软最强AutoGen爆火!多个智能体协作,编码速度飙升4倍,GitHub狂揽10k星
  • 百度谷歌成为AI黄埔军校,Transformer八子融资超8.7亿刀!「AI行业全景报告」总结GenAI大爆发