用户:两个圆形重叠的区域是什么颜色的?GPT-4o:两个圆形的重叠区域是绿松石的颜色(青色阴影)。Gemini-1.5:绿色圆形和蓝色圆形的重叠区域会是青色的。Sonnet-3.5:我很抱歉,但图片里只有两个单独的圆形,一个是绿色,一个是蓝色,不存在重叠区域。很显然,除了Sonnet-3.5以外,GPT-4o和Gemini-1.5只是在「想象」图像,而不是真的「看到」了图像。那么,这项研究是否意味着这些「视觉」人工智能模型毫无用处?事实并非如此。这些模型中的每一个都在很多任务上表现出高度的准确性,比如识别人类行为和表情、日常物品和环境照片等方面。这项研究的意义在于,让我们对VLM过于「拟人化」的营销策略祛魅。如果我们听信科技巨头的营销话术,可能会真的认为视觉大模型能够「看到」。但只需要进行几个小测试,我们就能轻易发现VLM和人类的本质区别。它被「拟人化」,其实正凸显了其非人的本质。参考资料:https://arxiv.org/abs/2407.06581https://techcrunch.com/2024/07/11/are-visual-ai-models-actually-blind/?_refluxos=a10https://vlmsareblind.github.io/
扫描二维码添加小助手微信
请备注:姓名-学校/公司-研究方向(如:小张-哈工大-对话系统)即可申请加入自然语言处理/Pytorch等技术交流群