厦门大学首发多模态阅读理解新任务：图文深度融合数据集VEGA

介绍

多模态大型语言模型（MLLMs）的高速发展彰显了其在处理图文信息方面的强大潜力。然而，目前的多模态模型和方法主要集中于处理基础视觉问答（VQA）任务，这些任务通常只涉及与问题强相关的有限图片和文本信息。

在实际应用中，尤其是文档理解领域，模型经常需要处理更为复杂的图文混合输入，这些输入不仅长度更长，而且可能包含冗余甚至误导性的信息。现有的主流 MLLMs 在处理此类复杂任务时表现不佳，且缺乏相应的 Benchmark 来评估模型在这些任务上的性能。

近日，来自厦门大学纪荣嵘团队提出了一个全新的多模态任务——交错图文阅读理解（Interleaved Image-Text Comprehension, IITC）。该任务要求模型处理包含复杂图文交错信息的输入，并在回答问题时明确指出其参考的图片。为了有效评估和提升模型在 IITC 任务上的表现，他们构建了 VEGA 数据集。该数据集专注于科学论文的理解，包含超过 50,000 篇科学论文的图文数据。

作者对 Qwen-VL-Chat 模型在 VEGA 数据集上进行了微调，并采用了一种多尺度、多任务的训练策略，得到 VEGA-Base 模型。实验结果显示，该模型在 IITC 任务中的图像关联准确率方面达到了 85.8%，为 IITC 任务建立了一个强有力的 Baseline。目前，VEGA 数据集已全部开源，包含 593,000 条论文类型训练数据，2 个不同任务的 2,326 条测试数据。

文章链接：https://arxiv.org/pdf/2406.10228

项目链接：

https://github.com/zhourax/VEGA

数据集链接：

https://huggingface.co/datasets/zhourax977/VEGA

图中展示了 VEGA 提出的 IITC 任务和常见的 VQA 任务的不同：

左边：现有的 VQA 任务以少量的图片和较短的本文作为输入，且图像和文本信息与问题往往强相关。
右边：IITC 任务以更长更复杂的图文交错内容作为输入，且包含冗余和具有误导性的信息，模型在回答时要求指明其参考的图像。

方法

2.1 任务定义

我们共提出了两个任务用于评估模型处理图文交错输入的能力，其具体定义如下：

IITC 任务以包含冗余信息的图文交错的内容作为输入，针对其中的一张图片进行提问，要求模型在回答的时候指明其参考的图片，最终以回答文本的 ROUGE、BLEU 和参考图片的正确率共同衡量 IITC 任务的表现。该任务考验模型根据指令关联和提取正确文本和图像信息的能力。
ITA 任务将来自多篇文章的文本图像对打乱作为输入，要求模型回答图像和文本之间的对应关系，以对应关系的准确率来衡量 ITA 任务的表现。ITA 任务的训练可以提升模型图像和文本之间的关联能力，进而提升模型在 IITC 任务上的表现。

2.2 VEGA数据集

为了提升和评估模型在 IITC 和 ITA 任务上的表现，作者构建了 VEGA 数据集。VEGA 源自 SciGraphQA 数据集，后者是一个论文图片理解任务的数据集，包含 295k 个问答对，作者在其基础上进行了问题筛选；上下文构建；答案修改三个步骤，如下图所示，得到 VEGA 数据集。

问题筛选：原数据集中部分问题缺乏明确的图片指向，当将输入的信息拓展到多图时会造成理解的混淆。
上下文构建：原数据集中问答仅针对一张图片，且提供的上下文信息较少。为了拓展文本和图片的数量作者在 arxiv 上下载了相关论文的源文件，并构建了 4k token 和 8k token 两个长度的数据，每个问答对包含至多 8 张图片。
答案修改：作者修改了原数据集中的答案，指明了回答时参考的图片，以符合 IITC 任务的要求。

实验

作者分别使用 4k token 和 8k token 长度的 VEGA 数据在 Qwen-VL-Chat 7B 上进行了微调，得到了 VEGA-Base-4k 和 VEGA-Base-8k 模型，使用 8k token 长度的 VEGA 数据及部分私有的图文交错数据训练得到自研模型 VEGA-8k*。

这部分私有数据包含了更广泛的图文交错的应用场景，这使得 VEGA-8k* 具备了更通用的文档图文理解能力，不仅能够完成科学论文的阅读理解任务，在例如：操作手册理解、游玩攻略总结、金融财报分析等任务上也表现优异（具体样例在文末展示）。

作者在 VEGA 的 IITC 和 ITA 子集上对现有的支持多图输入的主流 MLLMs 进行了测试，具体结果如下：

从结果中我们可以观察到，Qwen-VL-Chat 在多个任务中的性能相对较弱，这主要归因于它在遵循指令方面的不足。

相比之下，经过在 VEGA 数据集上微调的 VEGA-Base-4k 模型和 VEGA-8k* 模型，在 IITC 和 ITA 任务上均展现出了卓越的性能，甚至超越了一些主流的闭源模型，达到了 SOTA 水平。

这强有力地证明了 VEGA 数据集在提高模型处理图文交错输入方面的有效性。

作者还分别使用 SciGraphQA 和 VEGA 数据集对模型进行训练并测试其在 SciGraphQA 和 IITC 任务上的表现，其具体结果如下（表格中 VEGA* 代表了旧版本的 VEGA 数据集）：

测试结果显示，VEGA 数据集训练的模型在两个任务上的表现都较好，而经过 SciGraphQA 训练的模型则无法很好地处理 IITC 任务，这表明经过 VEGA 数据集的训练，不仅提升了模型处理长的图文交错输入的能力，也维持了模型在处理传统 VQA 输入模式的能力。

效果展示

在本章节中，作者进一步展示了在实际场景中多模态阅读理解模型 VEGA-8k* 的效果。作者选取了金融、汽车说明书以及旅游介绍三类场景，设定了难点不同的场景任务 case，对比本文提出的 VEGA-8k* 以及一些开源模型产品的结果。

在实际测试过程中，作者将下列不同难点场景的 case 中 context 的内容转换成 PDF 的形式分别对文心一言、通义千问、KimiChat、腾讯元宝、Gemini 和 Gemini 等多个多模态产品进行测试对比：

【Case 1】说明书场景中针对自然图像的阅读理解

Case难点：用户针对说明书文档中的自然图像进行提问，答案不存在于文档的文字描述中，因此，需要模型对自然图像进行理解后做出回答，并输出对应图像。

从结果中不难发现，目前其他模型多模态模型产品均倾向于直接从文字中获得答案而忽略了图片中的内容。而 VEGA-8k* 则能对文字和图像内容进行联合理解，并根据图像内容给出准确的答案。

【Case 2】说明书场景中输入图片进行提问

Case难点：联合理解用户输入的图片和文字内容，根据文档内容进行回复。从结果中不难发现，目前，KimiChat 不支持输入不带有文字内容的图像，文心一言、通义千问和腾讯元宝的线上产品均仅支持图文问答，即根据图片内容回答用户问题，而无法将输入的图片作为问题的一部分进行理解，并根据文档内容进行回复。

目前，仅 VEGA-8k*、Gemini 和 GPT-4o 支持该功能。