生成-理解大一统：一文浅谈多模态大模型最新研究进展

在过去几年中，多模态智能的两个关键支柱——理解和生成，取得了显著进展。多模态大型语言模型（MLLMs），如 LLaVA，在视觉语言任务（例如视觉问答）中表现出色。同时，去噪扩散概率模型（DDPMs）在文本到图像/视频生成方面也取得了前所未有的成果。

尽管在各自领域取得了这些成就，研究者们开始探索将这两者连接的潜力。近期的研究尝试将来自不同领域的专家模型组合成一个统一系统，以同时处理多模态理解和生成。然而，现有的尝试主要将每个领域独立对待，通常涉及分别负责理解和生成的单独模型。针对这一问题，近期出现了很多工作。

Chameleon

Chameleon 采用了统一的架构，将图像和文本视为离散的标记，从而能够在任意顺序中处理和生成混合内容。这种“早期融合”的方法使得模型能够跨模态推理和生成真正的混合文档。Chameleon 的主要特点包括：

统一建模：通过将不同模态（图像和文本）表示为相同的标记，Chameleon 能够在一个共享的表示空间中进行处理，避免了传统模型中对不同模态使用不同编码器和解码器的限制。
技术创新：模型在训练过程中采用了新的架构改进和训练技术，如查询-键归一化和层归一化的重新排列，以提高训练的稳定性和可扩展性。
广泛的应用能力：Chameleon 在视觉问答、图像描述等任务上表现出色，超越了许多现有模型，同时在文本任务中也保持了竞争力。
人类评估：通过对开放式混合模态生成的评估，Chameleon 在生成质量上显著优于其他强基线模型，如 Gemini-Pro 和 GPT-4V。

1.1 技术细节Tokenization：Chameleon模型使用了一种新的图像标记器（基于以下工作），将 512 × 512 的图像编码为 1024 个离散标记，这些标记来自 8192 大小的 code book。该标记器的训练仅使用许可的图像，并且为了提高生成包含人脸的图像的能力，在预训练期间将包含人脸的图像比例增加了两倍。然而，该标记器在重建包含大量文本的图像时存在核心弱点，这限制了模型在处理 OCR 相关任务时的能力。

此外，Chameleon 还训练了一种新的 BPE 标记器，词汇量为 65,536，其中包括 8192 个图像代码本标记，使用 sentencepiece 库进行训练。这种双重标记化策略使得模型能够更好地处理文本和图像数据，为后续的混合模态生成和推理奠定了基础。

1.2 预训练数据

作者将预训练阶段划分为两个独立的阶段。第一阶段占据训练的前 80%，而第二阶段占据最后 20%。对于所有文本-图像对，作者旋转数据，使得图像在 50% 的情况下位于文本之前（即图像描述）。

1.3 第一阶段在第一阶段，作者使用以下大规模完全无监督的数据集的混合：

文本数据：作者使用多种文本数据集，包括用于训练 LLaMa-2 和 CodeLLaMa 的预训练数据，总计 2.9 万亿文本 tokens。
文本-图像数据：用于预训练的文本-图像数据是来自公共可用数据源和许可数据的组合。图像被调整大小并中心裁剪为 512 × 512 的图像进行标记化。总共包括 14 亿文本-图像对，产生 15 万亿文本-图像 tokens。
交织文本/图像数据：作者从公共可用的网络源中获取数据，不包括 Meta 的产品或服务的数据，总计 4000 亿个交织文本和图像数据 tokens。作者对图像应用了与文本-图像相同的过滤。

1.4 第二阶段

在第二阶段，作者将第一阶段数据的权重降低 50%，并混入更高质量的数据集，同时保持图像文本 tokens 的相似比例。作者还包括了来自大型指令微调集的过滤子集。

1.5 推理需求

Chameleon 增强了推理策略，以提高吞吐量并减少延迟。自回归混合模态生成在推理时引入了独特的性能相关挑战，包括：

逐步数据依赖性：由于解码公式根据模型在特定步骤生成图像或文本而变化，因此在每一步必须检查 tokens。
模态约束生成的掩码：为了促进特定模态（例如，仅图像生成）的独占生成，必须掩盖并忽略不属于特定模态空间的 tokens。
固定大小的文本单元：与仅文本生成不同，基于 tokens 的图像生成产生与图像对应的固定大小的 tokens 块。

Chameleon 的推理实现支持文本和图像的流式生成。在流式生成时，每个生成步骤需要 token 依赖的条件逻辑。

Show-o

Chameleon 模型的出现表明，一个单一的 transformer 可以同时处理多模态理解和生成。Chameleon 通过早期融合不同模态，能够以自回归建模的方式生成文本和图像标记。尽管自回归建模文本标记是合理的，但对图像标记进行自回归建模的有效性尚不明确。自回归预测图像的一个显著瓶颈是由于因果注意力所需的大量采样步骤，尤其是在处理高分辨率图像/视频时。

因此，本文提出了一个新范式：文本作为离散标记进行自回归建模，而连续图像像素则使用去噪扩散建模。然而，将这两种不同技术集成到一个网络中并非易事，因为离散文本标记和连续图像表示之间存在显著差异会出现一些问题，本文提出了一些设计去缓解遇到的难题。

▲ Show-o 是一个创新的统一模型，能够同时处理多模态理解和生成任务。其输入数据无论是何种模态，都会被标记化并格式化为输入序列。具体而言，Show-o 通过因果注意力自回归处理文本标记，并通过全注意力的离散去噪扩散模型处理图像标记，从而生成所需的输出。

2.1 标记化Show-o 基于预训练的大型语言模型（LLMs），因此在离散空间上进行统一学习是自然的。我们维护一个统一的词汇表，包括离散的文本和图像标记，使得统一模型可以执行相同的学习目标，即预测离散标记。

文本标记化：Show-o 与预训练 LLM 相同的标记器对文本数据进行标记化，无需任何修改。
图像标记化：我们采用 MAGVIT-v2 训练一个无查找量化器，使用约 3500 万张图像数据。该量化器维护一个大小为 8192 的代码本，并将 256×256 分辨率的图像编码为 16×16 的离散标记。使用 MAGVIT-v2 的原因在于其易于微调，能够作为具有时间压缩能力的视频标记器，这是我们未来希望探索的潜在方向。

2.2 体系结构Show-o 继承了现有 LLMs 的架构，除了在每个注意力层前添加 QK-Norm 操作外，没有进行任何架构修改。用预训练 LLM 的权重初始化 Show-o，并通过加入 8192 个新的可学习嵌入来扩展嵌入层的大小。与需要额外文本编码器的最先进扩散模型不同，Show-o 内置文本条件信息的编码能力。

2.3 统一提示

为了在多模态理解和生成上执行统一学习，我们设计了统一提示策略来格式化各种输入数据。给定一个图像-文本对（x, y），首先通过图像和文本标记器将其标记为 M 个图像标记和 N 个文本标记。根据任务类型，我们将它们形成一个输入序列，具体格式如上图所示。

2.4 全注意力机制

与仅自回归建模的现有工作不同，本文提出了一种全注意力机制，使 Show-o 能够以不同方式建模各种信号。这是一种综合注意力机制，结合了因果和全注意力，能够根据输入序列的格式自适应地混合和变化。具体而言，Show-o 通过因果注意力处理文本标记，而通过全注意力处理图像标记，使每个标记能够与所有其他标记全面交互。

2.5 训练策略

由于图像标记的嵌入是新初始化的，因此需要大规模的预训练以实现多模态理解和生成。此外，Show-o 消除了文本编码器，以提取文本嵌入进行文本到图像生成，这对在单一 transformer 中实现文本和图像内容之间的有效对齐构成了重大挑战。为此，本文采用三阶段的方法逐步有效地训练 Show-o：

图像标记嵌入和像素依赖学习：使用 RefinedWeb 数据集训练 Show-o 以维持语言建模能力，同时使用 ImageNet-1K 数据集和 3500 万图像-文本对进行类条件图像生成和图像描述学习。
图像-文本对齐以实现多模态理解和生成：在预训练权重的基础上，继续在 3500 万图像-文本数据上进行文本到图像生成的训练，主要集中在图像和文本的对齐。
高质量数据微调：最后，通过引入过滤后的高质量图像-文本对进行文本到图像生成的微调，并使用指令数据进行多模态理解和混合模态生成的微调。

2.6 实验结果尽管 Show-o 的模型参数较小（1.3B），但在多个基准测试中，与较大模型相比，Show-o 在多模态理解任务上表现出色，显示出其竞争力。

Show-o 在 MSCOCO 30K 生成任务上的 FID 为 9.24，尽管其参数量仅为 1.3B，训练数据为 3500 万张图像。这一结果与其他大型生成模型（如 GLIDE 和 DALL·E 2）相比，显示出更好的生成质量。

Transfusion

本文提出了一种名为 Transfusion 的新方法，能够无缝地生成离散和连续模态，而无需信息丢失。该方法采用了文本的下一个标记预测和图像的扩散作为目标函数，并在每个训练步骤中将模型暴露于这两种模态。相比现有的方法，Transfusion 模型在不增加计算成本的前提下，实现了更好的模态整合与生成效果。

与现有的离散化方法相比，Transfusion 模型在文本到图像生成和图像到文本生成任务中表现更为出色，同时在计算效率上具有明显优势。此外，通过消融实验，本文发现了模型的关键组件，并展示了进一步降低计算成本的潜力，如通过引入 U-Net 下/上采样块进行更大图像块的压缩。

3.1 概述

▲ 单一的 Transformer 处理、感知并生成所有模态的数据。离散的文本标记通过自回归方式处理，并在下一个标记预测目标上进行训练。连续的图像向量则被并行处理，并在扩散目标上进行训练。BOI 和 EOI 标记用于区分不同的模态。

Transfusion 是一种训练单一统一模型的方法，能够同时理解和生成离散和连续模态。其核心创新在于使用不同的损失函数处理不同的模态——语言建模用于文本，扩散用于图像——并在共享的数据和参数上进行训练。

3.2 数据表示

在数据表示方面，Transfusion 处理两种模态：离散的文本和连续的图像。文本被分解为固定词汇表中的离散标记序列，每个标记都表示为一个整数。

而图像则通过变分自编码器（VAE）编码为潜在的图像块，每个图像块表示为一个连续向量。这些图像块按照从左到右、从上到下的顺序排列，形成图像的向量序列。在处理混合模态时，图像序列被特别标记为图像开始（BOI）和结束（EOI），然后插入到文本序列中，形成同时包含离散和连续元素的单一序列。

3.3 模型架构

Transfusion 模型的大部分参数属于单一的 Transformer，这个模型可以处理任何模态的序列。文本部分采用嵌入矩阵将每个输入整数转换为向量空间，同时将输出向量转换为离散分布。图像部分则采用局部窗口的压缩方法，将图像块向量压缩为单个 Transformer 向量。图像的压缩方法包括简单的线性层或 U-Net 的上/下采样块。

3.4 Transfusion注意力机制

Transfusion 将语言模型的因果掩码和图像的双向注意力机制相结合。对于序列中的每个元素，应用因果注意力，而对于图像的每个图像块，则应用双向注意力。这样，每个图像块可以关注同一图像内的其他图像块，但只能关注序列中之前出现的文本或其他图像块。这种机制显著提升了模型性能。

3.5 训练目标

为了训练模型，Transfusion 将文本标记预测的语言建模目标与图像块预测的扩散目标结合在一起。语言建模的损失函数按标记计算，而扩散损失则按图像计算，并通过加噪和去噪过程计算图像的扩散损失。最终的总损失函数是两个模态的损失加权求和的结果。

3.6 推理过程

在推理时，模型根据训练目标在语言建模和扩散模式之间切换。在语言建模模式下，模型逐标记地生成文本。当生成 BOI 标记时，切换到扩散模式，模型开始生成图像。生成完成后，模型在图像序列后添加 EOI 标记，并切换回语言建模模式。该算法允许生成任意混合的文本和图像模态。

3.6.1 实验

我们通过一系列受控实验证明，Transfusion 是一种可行且可扩展的方法，用于训练统一的多模态模型。

3.6.2 评估

对于文本到文本的任务，在来自 Wikipedia 和 C4 语料库的 2000 万保留令牌上测量困惑度，并在 Llama 2 的预训练评估套件上测量准确率。

对于文本到图像的任务，MS-COCO 基准，生成随机选择的验证集中的 3 万个提示词的图像，并使用零样本 Frechet Inception Distance（FID）测量图像的真实感，同时使用 CLIP 得分测量图像与提示词的对齐程度。还评估模型生成图像标题的能力，并在 MS-COCO 的 Karpathy 测试集上报告 CIDEr 得分。

3.6.3 基线模型Chameleon 和 Transfusion 之间的关键区别在于，虽然 Chameleon 对图像进行量化并将其处理为令牌，Transfusion 则将图像保持在连续空间，从而消除量化信息瓶颈。

为了进一步减少混杂变量，我们使用相同的数据、计算和架构训练 Chameleon 和 Transfusion 的 VAE，唯一的区别是 Chameleon 的 VQ-VAE 的量化层和码本损失。Chameleon 还偏离了 Llama 变压器架构，增加了查询键归一化、后归一化、分母损失，并使用较低的 1e-4 学习率来管理训练不稳定性，这带来了效率成本。

3.6.4 数据在几乎所有的实验中，从两个数据集中以 1:1 的令牌比例采样 0.5T 令牌。对于文本，使用 Llama 2 分词器和语料库，其中包含 2T 令牌，涵盖各种领域的多样分布。对于图像，使用 3.8 亿张经过许可的 Shutterstock 图像和标题。每张图像均进行中心裁剪并调整大小，生成 256×256 像素的图像。

为了增加多样性，本文增加了 2.2 亿张不包含人物的公开可用图像及其标题，并重新平衡分布，在最后 1% 的训练时间中上采样 8000 万张包含人物的 Shutterstock 图像。还添加了来自 Conceptual 12M（CC12M）的数据，使每轮训练的图像标题对总数达到 6.92 亿。在最后 1% 的训练时间中增加了高美学图像的比例。

3.6.5 图像表示

训练了一个具有 8600 万参数的 VAE。我们使用 CNN 编码器和解码器，并采用 8 维的潜在空间。训练目标结合了重建和正则化损失。本文的实现将 256×256 像素的图像缩小为一个 32×32×8 的张量，其中每个潜在的 8 维像素代表原始图像中的一个 8×8 像素补丁，并训练了 100 万步。

3.6.6 模型配置

为了研究缩放趋势，我们训练了五种不同大小的模型：0.16B、0.37B、0.76B、1.4B 和 7B 参数，均遵循 Llama 的标准设置。在使用线性补丁编码器的配置中，额外的参数数量非常少，在每个配置中都占总参数的不到 0.5%。

当使用 U-Net 补丁编码器时，这些参数在所有配置中增加了 2.7 亿个额外的参数；尽管这对较小的模型来说是一个显著的参数增加，但对于 7B 配置来说，这些层只占增加了 3.8% 的参数，几乎与嵌入层的参数数量相同。

3.6.7 推理

在文本模式下，我们使用贪婪解码生成文本。对于图像生成，我们遵循 250 个扩散步骤的标准（模型在 1000 个时间步上训练）。

3.6.8 与Chameleon的受控比较

在不同的模型大小（N）和令牌数（D）下比较 Transfusion 和 Chameleon，使用二者的组合作为 FLOPs（6N D）的代理。为了简化参数控制，这些实验中的 Transfusion 变体使用简单的线性图像编码器/解码器，补丁大小为 2×2，并使用双向注意力。对于每个基准，我们将所有结果绘制在 log-metric 和 log-FLOPs 曲线上，并回归线性趋势线。我们还通过测量 FLOPs 平价比估计相对计算效率：即 Transfusion 和 Chameleon 达到相同性能水平所需的 FLOPs 之比。上图展示了缩放趋势。在每个基准中，Transfusion 的缩放规律都比 Chameleon 表现出更好的表现。虽然趋势线几乎是平行的，但在 Transfusion 的表现上存在显著的优势。特别是在图像生成中，Transfusion 的 FID 达到与 Chameleon 相同的水平时，所需的计算量少了 34 倍。令人惊讶的是，即使在仅限文本的基准测试中，Transfusion 的表现也优于 Chameleon。这可能是由于图像/文本联合训练使 Transfusion 在文本建模中能更好地利用其容量。与 Chameleon 相比，Transfusion 的优越表现表明，统一的模态混合（transfusing）是一种有效的策略，不仅可以改进图像生成，还可以在传统的 NLP 任务中保持竞争力。图像块编码/解码架构：到目前为止，我们的实验表明使用 U-Net 上下块比使用简单的线性层更有优势。一个可能的原因是模型从 U-Net 架构的归纳偏差中受益；另一种假设是，这一优势来源于 U-Net 层引入的大量参数。为了消除这两个混杂因素，我们将核心 transformer 扩展到 7B 参数，同时保持 U-Net 参数几乎不变。

在这种情况下，额外的编码器/解码器参数仅占总模型参数的 3.8% 增加，相当于令牌嵌入参数的数量。表 7 显示，即使 transformer 变得更大，U-Net 层的相对收益仍然存在。在图像生成中，例如，U-Net 编码器/解码器使得较小的模型能够获得比。

总结与未来展望

文章探讨了多个前沿模型的设计与技术，包括Chameleon、Show-o和Transfusion，及其在多模态任务上的表现和创新。

Chameleon: 混合模态早期融合基础模型

模型特点：Chameleon 通过将图像和文本视为离散标记，统一处理多模态数据，实现了跨模态的推理和生成。其技术亮点在于早期融合，允许处理和生成混合模态内容。
创新点：新的图像标记器和 BPE 标记器的使用，确保文本和图像都可以通过统一的序列建模来处理。此外，模型在视觉问答、图像描述等任务上表现超群，且在生成任务中通过人类评估证明其优越性。
挑战：图像标记器在处理包含大量文本的图像时表现不佳，OCR 任务仍然是瓶颈。

Show-o: 单一Transformer实现多模态理解与生成