新智元报道
编辑:编辑部论文地址: https://arxiv.org/abs/2311.03287
代码地址: https://github.com/gzcch/Bingo通过提出一种全新的「Bingo」基准测试,他们发现GPT-4V存在两种常见的幻觉类型:偏见和干扰。比如,GPT-4V的文本先验知识,是凌驾于视觉之上的。它会倾向于坚持常识或刻板印象,比如在并没有土星的太阳系图像中识别出土星。GPT-4V一身bug:看图说胡话,用户说啥就是啥
Bingo错题集出炉
从上可见,大型视觉-语言模型(LVLM)面对引导性、被攻击、存在偏差和干扰的输入时,往往会输出带有毒性和幻觉的信息。而研究者也根据自己对GPT-4V的多项测试经验,汇总成了一份全新的“错题集”——benchmark集合Bingo。(视觉模型们,颤抖吧!)Bingo第一版包含308张图片(其中一些图片经过人工精心设计)和370个问题(其中包含人为设计的引导性问题),具体信息如下: 数据下载链接:https://github.com/gzcch/Bingo有补救措施吗?并不太管用
GPT-4V出的这些bug,是否有补救措施呢?遗憾的是,时下流行增强推理方法——自我纠正(Self-Correction)和思维链(CoT)推理,对GPT-4V也并不那么管用!即使在prompt中要求GPT-4V「一步一步思考」,它还是会犯错,「一步一步」地描述出图中有土星。或者,要求GPT-4V把「12345768910」一个一个数完,它依然会正序从1数到10。实验结果表明,自我纠正在降低幻觉方面,会比CoT稍微有效一些。尝试下来,这两种方法对于大部分问题能有一定的提升,但结果也并不是特别理想。当然,锅不能全给GPT-4V背。根据「Bingo」基准测试结果,其他的SOTA视觉语言模型,诸如LLaVA和Bard,也普遍存在这些问题。参考资料:https://twitter.com/xwang_lk/status/1723389615254774122https://twitter.com/WilliamWangNLP/status/1723800119160545336https://arxiv.org/abs/2311.03287