夕小瑶科技说 原创
作者 | 智商掉了一地、ZenMoore
GPT-4 被吹的神乎其神,作为具备视觉能力的 GPT-4 版本——GPT-4V,也被大众寄于了厚望。但如果告诉你,GPT-4V 连图片上的“北京烤鸭”和“广西烤鸭”都分不清楚,你是否觉得大跌眼镜??
有图有证据!!
Prompt 是:图片中是否有“北京烤鸭”?
结果 GPT-4V 和 LLaVa-1.5 都面向“广西烤鸭”的图片,回答了——是的,有北京烤鸭。
为什么“OpenAI 主导的大模型路线都要进化到 AGI 了”,却依然在犯这么让人大跌眼镜的错误?
这就要从下面这篇论文开始说起……
现如今,NLP 和 CV 的结合开启了 AI 领域的一种革命性模式。而大型语言模型(LLM)与视觉模型结合,进一步融入到视觉-语言模型(VLM)中,催生了大型视觉-语言模型(LVLM),这对于显著提升图像推理任务的表现起到了关键的推动作用。
最新发布的 GPT-4V(ison) 和 LLaVA-1.5 等模型已经证实了这一点,展示了前所未有的图像理解和推理能力。但 LVLM 也存在一些问题:
具体来说,“语言幻觉”是一种不基于感觉输入的知觉,而“视觉错觉”是对正确感觉输入的错误解释。
为了研究 VLM 的这两种错误类型(语言幻觉和视觉错觉),作者设计了名为 HallusionBench 的图像-上下文推理基准测试,用于深入研究图像和上下文推理的复杂性。此外,还对最新发布的 GPT-4V(ision) 和 LLaVA-1.5 进行了深入研究,探讨了它们的视觉理解能力。
论文题目:
HallusionBench: You See What You Think? Or You Think What You See? An Image-Context Reasoning Benchmark Challenging for GPT-4V(ision), LLaVA-1.5, and Other Multi-modality Models
论文链接:
https://arxiv.org/abs/2310.14566
Github 地址:
https://github.com/tianyilab/HallusionBench
作者对 HallusionBench 进行了深入探索,并详细分析了一些 SOTA LVLM(如GPT-4V 和 LLaVA-1.5)无法处理的示例,并发布了这份尚在进行中的初步报告。明确了这些失败案例主要由两个因素导致:语言幻觉和视觉错觉。语言幻觉是由于这些模型中 LLM 参数记忆导致的推理偏见,而视觉错觉则是由于对图像上下文中视觉模式的误解。
这不仅揭示了当前关于 VLM 幻觉的不足,也为未来可能的改进铺平了道路。我们有理由期待下一代的 LVLM 将更加强大、平衡和准确。
HallusionBench 是首个专门针对 VLM 的视觉错觉和知识幻觉的基准测试。它包含大约 200 个视觉问答对,其中近一半由人类专家生成。这些问答对相关的图像包括各种类型,如未经编辑的错觉图像、图表、地图、海报、视频,以及手工制作或编辑过的图像。这些图像涵盖了各种主题,包括数学、计数、文化、卡通、体育和地理等。
在这部分,作者首先定义了 HallusionBench 中的两种视觉问题类型:视觉依赖和视觉补充,讨论如何为实验设计对照组。接着,探讨可能导致回答错误的两个主要因素:视觉错觉和语言幻觉。最后,在每个主要类别中展示不同子类别的失败示例,并对其进行详细分析。
视觉依赖问题:在缺乏视觉背景的情况下,无法给出明确答案的问题。这类问题通常涉及到图像本身或图像中的内容。举例来说,如果没有提供图 1(见后文),就无法明确回答“右边的橙色圆圈和左边的橙色圆圈大小是否一样?”这个问题。
目标:旨在评估视觉常识知识和视觉推理能力,研究和数据集构建都是基于以下问题进行的:
控制组:在互联网上找到的原始图像和基于这个原始图像编辑过的图像,基于它们提出同样的问题。作者只对原始图像进行了小部分的修改,这些修改会带来不同的含义,从而影响原始答案的正确性。这些被编辑过的图像称为"Hard Negative Examples"。
视觉补充问题:即使没有视觉输入,也能回答的问题。这类问题中,视觉部分只提供了额外的信息。以后文的图 13 为例,GPT-4V 可以回答“新墨西哥州比得克萨斯州大吗?”这个问题,而无需依赖图像。评估目标是 GPT-4V 和 LLaVA-1.5 是否能够依据图像来回答问题,而不是依赖它们的参数化记忆。
目标:为了评估视觉推理能力,以及参数化记忆和图像上下文之间的平衡。在这个类别下,研究和数据集的构建由以下问题引导的:
控制组:在提问时,有时使用图像作为补充信息,有时不使用。这些补充的视觉背景可以提供更多细节,有助于问题的回答,但也可能会与现实世界中的信息产生冲突。
作者分析了错误答案,并将原因归为两种主要类型:
视觉错觉:源于对输入图像的视觉识别和理解的失败,模型无法获得准确的信息或正确推理图像。
语言幻觉:模型会根据其参数化记忆,对输入和图像背景做出错误的预设假设。模型应当根据问题的设定来做出回应,而非忽视问题或对图像做出错误的假设。
从图 1、图 2 和图 3 的著名错觉中发现,GPT-4V 在识别所有错觉案例和知道它们的名称方面,比 LLaVA-1.5 更有知识。但是,当基于编辑过的图像回答问题时,GPT-4V 并未能给出准确的答案。这可能是因为 GPT-4V 更倾向于依赖其参数化记忆来生成答案,而非分析图像。相比之下,LLaVA-1.5 在处理原始图像和编辑过的图像时表现不佳,这表明 LLaVA-1.5 的视觉感知能力有限。
在图 1 中,GPT-4V 更倾向于依据其参数化记忆中已有的知名光学错觉来生成答案,而非实际的视觉背景。即使是之前未出现过的手工设计示例(见图 1 的下方),该模型仍不能根据图像背景来回答。
▲图1:将视觉错觉、语言幻觉或可能的混合情况下的错误答案进行了突出显示在图 2 中,GPT-4V 能识别出许多光学错觉的案例,但同时也容易被图像的场景与布局所误导。这两个模型在识别和测量长度方面的表现都不尽如人意。
▲图2在图 3 中,GPT-4V 能识别这些错觉,但在根据实际图像上下文准确回答问题上,其表现并不理想。
▲图3从图 4 和图 5 的例子来看,GPT-4V 和 LLaVA-1.5 都不能准确地识别出平行线、正三角形、多边形以及其他的数学定理。这表明,对于 GPT-4V 来说,几何和数学仍然是一项具有挑战性的任务。
具体地,在图 4 的上半部分,GPT-4V 和 LLaVA-1.5 能够记住著名的数学定理,但却无法在图像中识别出正确的平行线。在图 4 的下半部分,GPT-4V 无法判断两条线是否直线。推测这种失败是缺乏几何识别能力所导致的。
▲图4如图 5 所示,作者改变了三角形的重要几何属性,但 GPT-4V 和 LLaVA-1.5 都未能识别出这些变化。例如,图 5 上半部分编辑后的图像显然不是一个三角形,下半部分编辑后的图像显然不是一个直角三角形。由此推测这种失败是由于缺乏几何识别能力。
▲图5作者在图 6 中进一步研究了 GPT-4V 和 LLaVA-1.5 在光学字符识别上的表现,同时在图7中对它们的图像识别能力进行了探讨。观察发现,当图像中的字符被编辑时,GPT-4V 和 LLaVA-1.5 很容易被误导。这表明,它们生成答案的依据是自身的参数化记忆,而非视觉推理。原因在于原始图像与编辑后的图像之间的差异非常明显。
具体地,在图 6 中,作者还标出了一些广告,它们展示了一些著名的地方菜肴,但菜肴的地区特性被修改了。在这两种情况下,GPT-4V 和 LLaVA-1.5 都没有考虑到上下文,忽视了图像信息,仍然给出了文本中提到的这些食物所知名的地区作为答案。
▲图6在图 7 的上半部分,GPT-4V 和 LLaVA-1.5 的判断受到参数化记忆和刻板判断的影响,这意味着它们没有认识到图像中的女孩并非玄奘的徒弟。尽管 LLaVA-1.5 在图像中检测到一个女孩和两个男人,但它仍然错误地将女孩视为玄奘的徒弟。在图 7 的下半部分,由于答案的不确定性,GPT-4V 使用了“类似”这个词,但错误地将其与 Air Jordan 品牌联系在一起。由此推测这个错误是由于语言幻觉造成的。
▲图7作者受到了前人研究的启发,他们展示了 GPT-4V 在视频理解方面的潜力。因此,也在图 8 和图 9 中进一步研究了更多例子(包括一些帧序列)。正序列和反序列在语义上有着相反的含义,比如图 8 中的“消失与出现”和“停车与离开”。然而,通过比较发现,即便这些序列代表了不同的动作,GPT-4V 也无法区分图像的正序列和反序列。这说明在视频推理能力方面,GPT-4V 还有很大的提升空间。
▲图8▲图9在图 10、图 11 和图 12 中,如果没有图像,GPT-4V 无法给出明确的答案。当有图像背景时,GPT-4V 和 LLaVA-1.5 仍然不能正确理解图表,这表明它们的图表推理能力有限。在图 18 的第二个示例中,当旋转图表后,GPT-4V 的预测完全改变了。
有时候,如果没有上下文,问题可能没有明确的答案。如图 10 所示,在这种情况下,GPT-4V 能很好地处理,会给出不确定的答案,而不会产生幻觉。然而,即使给定了包含所有信息的图表作为输入,GPT-4V 和 LLaVA-1.5 仍然无法提取正确的信息来给出正确的答案。
▲图10如图 11 所示,GPT-4V 能够处理不确定的查询,并给出不产生幻觉的不确定答案。当图表作为输入时,GPT-4V 能够正确回答问题。
▲图11相较之下,LLaVA-1.5 在没有图像上下文的情况下,能够很好地回答问题。但一旦加入图像,就会出现混淆,其答案变得模糊,且过于依赖问题的提出方式,这是由于其视觉能力有限。
此外,LLAVa 的答案中出现了幻觉,即 1000 GBP,这个答案是从图表的标题中提取出来的,1000 GBP 代表 2001 年到 2019 年的总数。由此推测这个错误是由于缺乏视觉推理能力所导致的。
在图 12 中,GPT-4V 能处理不确定的查询,会给出不确定的答案,而不会产生幻觉。但如果输入是一个图表,GPT-4V 就无法正确理解。而 LLaVA-1.5 倾向于依赖参数化记忆来生成答案,因为无论有无图像上下文,它都会生成相同的答案。
▲图12在图 13、图 14、图 16、图 17和图 18中,如果没有提供图像,GPT-4V 和 LLaVA-1.5 都会给出确定的答案。然而,一旦提供了图像,无论是图表、表格还是地图,我们发现它们更愿意依赖自身的知识来回答问题,而不是去分析图像。这可能是因为GPT-4V和LLaVA-1.5对文本推理的依赖明显,常常优先于视觉推理。
如图 13 所示,在没有上下文的情况下,GPT-4V 和 LLaVA-1.5 都能给出肯定且正确的答案。然而,当给出一张被编辑过且与常识相矛盾的地图时,GPT-4V 和 LLaVA-1.5 无法正确理解。尽管他们回答问题的方式表明回复是基于提供的地图,但 GPT-4V 和 LLaVA-1.5 更倾向于根据自身的参数化记忆来生成答案,而非实际的视觉上下文。
▲图13通过观察图 14 和图 15,可以发现 LLaVA-1.5 的知识存在不准确之处。例如,它错误地声称"π 的值不在 3.1415926 和 3.1415927 之间",还错误地认为"北卡罗来纳州位于特拉华州的北方"。这些观察结果进一步证实了:GPT-4V 的知识储备比 LLaVA-1.5 丰富。
在没有图像背景的情况下,如图 14所示,GPT-4V 和 LLaVA-1.5 都给出了肯定的答案,但只有 GPT-4V 的答案是正确的。因此可得出结论,GPT-4V 比 LLaVA-1.5 的知识性更强。当改变了地图的视觉输入后,由于强大的参数记忆,这两个模型都无法推理出四个州之间的位置关系。
▲图14如图 15 所示,在没有图像背景的情况下,GPT-4V 给出了肯定的答案,而 LLaVA-1.5 则因为无法理解文本而给出了一个在技术上正确但无关的答案。当改变 π 值作为视觉输入时,两个模型都无法从图像中解读出这个值。
▲图15如图 16 所示,GPT-4V 和 LLaVA-1.5 两个模型都给出了肯定且正确的答案,但这些答案缺乏上下文。GPT-4V 提供的答案更为严谨,因为它强调了这个知识的时间依赖性。然而,根据图表中的数据,两个模型都未能正确回答问题。由此推测这个失败是参数记忆过拟合所导致的。
▲图16在没有视觉输入的情况下,如图 17 所示,GPT-4V 和 LLaVA-1.5 都能给出肯定且正确的答案。当有表格作为视觉输入时,GPT-4V 会尝试根据视觉信息来回答,但却提取了错误的信息。具体来说,GPT-4V 回答“中国有 36 枚金牌”,但实际上图表显示的是美国有 36 枚金牌。LLaVA-1.5 则是基于参数化记忆来回答问题,它会分别对问题和表格进行回应。
▲图17如图 18 所示,在没有图像背景的情况下,GPT-4V 和 LLaVA-1.5 都给出了肯定的答案,但只有 GPT-4V 给出了正确且最严谨的答案。当使用图表作为视觉输入时,GPT-4V 能够忠实地遵循图表中的信息,而 LLaVA-1.5 则试图基于参数化记忆来回答问题。然而,当翻转图表后,GPT-4V 的预测完全改变了。与图 18 上部分的图表相比,这种失败可以归因于视觉错觉。
▲图18随着 LLM 与多模态研究的涌现,人工智能领域近些年来迎来了革命性的变革,将 NLP 和 CV 相结合。这种结合不仅催生了大型视觉-语言模型(LVLM),还进一步提升了图像推理任务的表现。然而,LVLM也存在一些问题,比如语言幻觉和视觉错觉。
为了深入研究这些问题,本文的作者推出了 HallusionBench,主要用于对 VLM 进行基准测试,尤其是在容易因语言幻觉或视觉错觉导致失败的困难案例中。并深度探讨了与 GPT-4V 和 LLaVA1.5 相关的各种示例和失败案例,具体为:
最后,作者表示仍在扩充数据库,并将尽快在 Github 上公开。这项研究为未来更强大、平衡和准确的 LVLM 铺垫了道路,期待通过详细研究这些实例,能为未来的研究提供一些观察结果和关键洞见。