厦门大学首发多模态阅读理解新任务: 图文深度融合数据集VEGA



介绍

多模态大型语言模型(MLLMs)的高速发展彰显了其在处理图文信息方面的强大潜力。然而,目前的多模态模型和方法主要集中于处理基础视觉问答(VQA)任务,这些任务通常只涉及与问题强相关的有限图片和文本信息。


在实际应用中,尤其是文档理解领域,模型经常需要处理更为复杂的图文混合输入,这些输入不仅长度更长,而且可能包含冗余甚至误导性的信息。现有的主流 MLLMs 在处理此类复杂任务时表现不佳,且缺乏相应的 Benchmark 来评估模型在这些任务上的性能。


近日,来自厦门大学纪荣嵘团队提出了一个全新的多模态任务——交错图文阅读理解(Interleaved Image-Text Comprehension, IITC)。该任务要求模型处理包含复杂图文交错信息的输入,并在回答问题时明确指出其参考的图片。为了有效评估和提升模型在 IITC 任务上的表现,他们构建了 VEGA 数据集。该数据集专注于科学论文的理解,包含超过 50,000 篇科学论文的图文数据。


作者对 Qwen-VL-Chat 模型在 VEGA 数据集上进行了微调,并采用了一种多尺度、多任务的训练策略,得到 VEGA-Base 模型。实验结果显示,该模型在 IITC 任务中的图像关联准确率方面达到了 85.8%,为 IITC 任务建立了一个强有力的 Baseline。目前,VEGA 数据集已全部开源,包含 593,000 条论文类型训练数据,2 个不同任务的 2,326 条测试数据

文章链接:https://arxiv.org/pdf/2406.10228

项目链接:

https://github.com/zhourax/VEGA

数据集链接:

https://huggingface.co/datasets/zhourax977/VEGA

图中展示了 VEGA 提出的 IITC 任务和常见的 VQA 任务的不同:


  • 左边:现有的 VQA 任务以少量的图片和较短的本文作为输入,且图像和文本信息与问题往往强相关。

  • 右边:IITC 任务以更长更复杂的图文交错内容作为输入,且包含冗余和具有误导性的信息,模型在回答时要求指明其参考的图像。


方法

2.1 任务定义

我们共提出了两个任务用于评估模型处理图文交错输入的能力,其具体定义如下:

  • IITC 任务以包含冗余信息的图文交错的内容作为输入,针对其中的一张图片进行提问,要求模型在回答的时候指明其参考的图片,最终以回答文本的 ROUGE、BLEU 和参考图片的正确率共同衡量 IITC 任务的表现。该任务考验模型根据指令关联和提取正确文本和图像信息的能力。

  • ITA 任务将来自多篇文章的文本图像对打乱作为输入,要求模型回答图像和文本之间的对应关系,以对应关系的准确率来衡量 ITA 任务的表现。ITA 任务的训练可以提升模型图像和文本之间的关联能力,进而提升模型在 IITC 任务上的表现。

2.2 VEGA数据集

为了提升和评估模型在 IITC 和 ITA 任务上的表现,作者构建了 VEGA 数据集。VEGA 源自 SciGraphQA 数据集,后者是一个论文图片理解任务的数据集,包含 295k 个问答对,作者在其基础上进行了问题筛选;上下文构建;答案修改三个步骤,如下图所示,得到 VEGA 数据集。

  • 问题筛选:原数据集中部分问题缺乏明确的图片指向,当将输入的信息拓展到多图时会造成理解的混淆。

  • 上下文构建:原数据集中问答仅针对一张图片,且提供的上下文信息较少。为了拓展文本和图片的数量作者在 arxiv 上下载了相关论文的源文件,并构建了 4k token8k token 两个长度的数据,每个问答对包含至多 8 张图片。

  • 答案修改:作者修改了原数据集中的答案,指明了回答时参考的图片,以符合 IITC 任务的要求。


实验

作者分别使用 4k token 和 8k token 长度的 VEGA 数据在 Qwen-VL-Chat 7B 上进行了微调,得到了 VEGA-Base-4k VEGA-Base-8k 模型,使用 8k token 长度的 VEGA 数据及部分私有的图文交错数据训练得到自研模型 VEGA-8k*。


这部分私有数据包含了更广泛的图文交错的应用场景,这使得 VEGA-8k* 具备了更通用的文档图文理解能力,不仅能够完成科学论文的阅读理解任务,在例如:操作手册理解、游玩攻略总结、金融财报分析等任务上也表现优异(具体样例在文末展示)。


作者在 VEGA 的 IITC 和 ITA 子集上对现有的支持多图输入的主流 MLLMs 进行了测试,具体结果如下:

从结果中我们可以观察到,Qwen-VL-Chat 在多个任务中的性能相对较弱,这主要归因于它在遵循指令方面的不足。


相比之下,经过在 VEGA 数据集上微调的 VEGA-Base-4k 模型和 VEGA-8k* 模型,在 IITC 和 ITA 任务上均展现出了卓越的性能,甚至超越了一些主流的闭源模型,达到了 SOTA 水平。


这强有力地证明了 VEGA 数据集在提高模型处理图文交错输入方面的有效性。


作者还分别使用 SciGraphQA 和 VEGA 数据集对模型进行训练并测试其在 SciGraphQA 和 IITC 任务上的表现,其具体结果如下(表格中 VEGA* 代表了旧版本的 VEGA 数据集):

测试结果显示,VEGA 数据集训练的模型在两个任务上的表现都较好,而经过 SciGraphQA 训练的模型则无法很好地处理 IITC 任务,这表明经过 VEGA 数据集的训练,不仅提升了模型处理长的图文交错输入的能力,也维持了模型在处理传统 VQA 输入模式的能力



效果展示

在本章节中,作者进一步展示了在实际场景中多模态阅读理解模型 VEGA-8k* 的效果。作者选取了金融、汽车说明书以及旅游介绍三类场景,设定了难点不同的场景任务 case,对比本文提出的 VEGA-8k* 以及一些开源模型产品的结果。


在实际测试过程中,作者将下列不同难点场景的 case 中 context 的内容转换成 PDF 的形式分别对文心一言、通义千问、KimiChat、腾讯元宝、Gemini 和 Gemini 等多个多模态产品进行测试对比:

【Case 1】说明书场景中针对自然图像的阅读理解

Case难点:用户针对说明书文档中的自然图像进行提问,答案不存在于文档的文字描述中,因此,需要模型对自然图像进行理解后做出回答,并输出对应图像。


从结果中不难发现,目前其他模型多模态模型产品均倾向于直接从文字中获得答案而忽略了图片中的内容。而 VEGA-8k* 则能对文字和图像内容进行联合理解,并根据图像内容给出准确的答案。

【Case 2】说明书场景中输入图片进行提问

Case难点:联合理解用户输入的图片和文字内容,根据文档内容进行回复。从结果中不难发现,目前,KimiChat 不支持输入不带有文字内容的图像,文心一言、通义千问和腾讯元宝的线上产品均仅支持图文问答,即根据图片内容回答用户问题,而无法将输入的图片作为问题的一部分进行理解,并根据文档内容进行回复。


目前,仅 VEGA-8k*、Gemini 和 GPT-4o 支持该功能。

【Case 3】金融场景中针对数据图片的阅读理解

Case难点:理解文字内容,结合图像里的数据内容回答用户问题。从该 case 的结果中可见,文心一言、腾讯元宝和 Gemini 均没有对文档中的数据图进行理解,而通义千问、KimiChat 虽然在【Case 1】中没有理解文档里的自然图像,但在该样例中对于数据类型的图像有着较好的理解能力。


但除了 VEGA-8k* 之外,其他模型均不具备输出相关图像作为辅助说明的能力。

【Case 4】旅游介绍场景中总结全文的图文关联

Case 难点:联合理解文字和图片内容,根据文字和图片之间的关联性,总结文字摘要的同时,在正确的位置输出图片。从结果上来看,所有模型都有着较好的指令跟随能力,能够输出指定的图片格式 “[Picture *]。


但是,大部分的模型几乎都是机械式地输出文字附近的图片下标,而没有真正去理解图片内容,Gemini甚至出现了幻觉([Picture 8, Picture 9])只有 VEGA-8k* 和 GPT-4O 能够正确理解理解图文之间的关联性,给出出图率和准确率都较高的回答。

【Case 5】论文场景中的数据图理解

Case难点:论文数据图的相似度较高,需要细节化理解图片内容,找到正确的对应图片。从结果中不难发现,腾讯元宝没有正确跟随指令,导致没有输出图片占位符,而其他模型对于相似图片的区分度较低,且易受到文本内容的干扰,甚至于 GPT-4V 也出现了误判情况,


例如:Figure 4 和 Figure 5 非常相似,但根据两图的 x 轴和 y 轴标签,我们可以确认问题是针对 Figure 5 提出的。现有模型未能有效捕捉到图片间的差异,因此未能给出正确的答案。而 VEGA-8k* 由于经过了较多的论文数据训练,对于数据图像细节的区分度较高,输出更加准确。


在一些问题指向更明确,图片之间差异更大的样例中,如第二个 case,大多数模型可以正确地找到图片和问题之间的对应关系,少部分模型如文心大模型-3.5 和腾讯元宝,在指令跟随和图文关联能力上存在不足,可能会出现拒答或无法关联图片的情况。



更多阅读



#投 稿 通 道#

 让你的文字被更多人看到 



如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。


总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 


PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。


📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算


📬 投稿通道:

• 投稿邮箱:hr@paperweekly.site 

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿


△长按添加PaperWeekly小编



🔍


现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

····



相关推荐

  • “闭门造车”之多模态思路浅谈:自回归学习与生成
  • Spring Boot集成drools快速入门Demo
  • 腾讯全员调薪,还算厚道
  • 实例分享:如何稳妥重构消费金融系统
  • 由浅入深的混合精度训练教程
  • 硕士生一作!985,发Science!
  • 美联储鲍威尔 | 货币政策半年度参议院听证会 全文+视频
  • 在抖音卖书半年,我如何从月亏十万到月GMV两千万?
  • 被一支笔硬控不止30秒!大模型时代的学生辅导“全能选手”
  • 三星的Galaxy Ring 智能戒指有点意思;附国内外AI产品6月数据
  • 点线面的智慧: 转转JTS技术如何塑造上门履约地理布局
  • 实现LLM应用的可观测,难在哪里?
  • JetBrains IDE全系列采用新的默认“皮肤”:即将面向所有用户提供
  • 谁该有“金融羞耻感”?
  • 5年融资87亿,苏州明星独角兽要IPO了
  • 腾讯和去哪儿网官宣两件大事,上热搜了!
  • CVPR'24 Highlight|一个框架搞定人物动作生成,精细到手部运动
  • ControlNet作者又出爆款!一张图生成绘画全过程,两天狂揽1.4k Star
  • 这些VLM竟都是盲人?GPT-4o、Sonnet-3.5相继败于「视力」测试
  • GitHub 8k Star,一作实习生,字节这个大模型成果被苹果选中了