GPT-4和DALL·E 3彻底懵逼,这到底是「牛」还是「鲨」

夕小瑶科技说 原创
作者 | 付奶茶、王二狗

大离谱!

我用GPT-4(V)和DALL·E 3 「混合双打」之下,生成了一张张 牛鲨🐂🦈图,那么问题来了,这到底是牛还是鲨?

起因是这样的!

最近推特上出现了一种有趣的玩法,要求GPT-4(V)详细地描述一张图片,然后DALL·E 3 基于该描述生成对应的图像,再循环往复, 根据这个测试的结果来观察图文之间转换、复原的过程。

首先输入想要测试的原图,让GPT-4(V)尽可能详细地生成图片的描述语:

然后我们再将生成的描述语喂给DALL·E 3让其根据文本产生对应的图片。

然后,我们再将图片喂给GPT-4(V)生成描述.....

循环几次后,我们可以看到蒙娜丽莎在反复的循环测试中,虽然面部出现了改变,但是在大方向上比如人物性别、背后场景上仍然能看到相似之处:

▲蒙娜丽莎

但是!小乌龟就没那么幸运了!

小乌龟在一轮轮的转换中逐渐变样,先是失去了自己的形状,后来竟然变成了猫头鹰!

▲乌龟->猫头鹰

这个小测试可以直观展现GPT-4V和DALL·E 3之间图文信息处理与生成上的协同与差异。小编们挑选了一些可爱又有趣的小例子,让我们一同欣赏它们生成的结果吧!

1、 顶流-卡皮巴拉

它还是一如既往的灰常稳定,尽管在不断循环的测试中,画风和场景不断变化,但形象是固定的,那就是卡皮巴拉的身影!

▲选取代表性描述

2、西游记

再来看看师徒四人~


另外再看看八戒单猪照~

在八戒的测试中,DALL·E 3识别出来是人假扮的,但是描述没有明确猪的概念。因此在后续的循环测试中,出现了主体形象的改变~图片中的八戒逐渐变成了一只戴着贵族礼帽的富贵猫猫!

3、蓝黑白金裙

在究竟裙子的颜色究竟是“白色与金色”或是“黑色与蓝色”上,GPT4V在测试的初期给出了确定的答复:(我猜测,应该是过去的训练学习到了相关)

▲小编试图找到高清图,但是原图就很糊wwww

然而抓马的来了!DALL·E 3根据GPT-4V生成的描述绘图后再让其对生成后的图片进行描述时:

▲第二轮的生成结果

已经被固定成蓝金!【狗头】


4、玲娜贝儿

我们川沙坦己在测试中被认出来了是小狐狸!被心软软的GPT-4V和DALL·E 3大大保留了水灵灵的蓝色眼睛和长睫毛~

而这只名叫做“夕小瑶”的小狐狸可就没那么幸运了!!!!

喂!你在说谁是猫头鹰!

5、牛鲨、虎鲨来了!

让我们一起来看看GPT-4V和DALL·E 3的答案吧!

在初级题上,GPT-4V很坚定这是一条棕色的鱼~

虽然在循环测试中,模型没有偏向牛,但是在后续的描述逐渐放大了海洋生物的眼睛,生成的图像逐渐跑偏...最终转向为一张海洋鱼的眼睛。

最后,我们回到我们文章开头抛出的问题,那么这张到底是牛还是鲨?

GPT-4V一眼认出了他是合成图!在测试的过程中不会下定义指定究竟是哪一种生物,在文本和图像转换的循环测试中也只是将两种生物的元素一直合成在一起。

别等了,大家赶紧上手试试看吧!

参考资料

 [1]https://twitter.com/stanislavfort/status/1713603557046276334

相关推荐

  • 【CVPR2023】多视图对抗判别器 MAD :挖掘未知领域目标检测中的非因果因素
  • 终于,毕业了!
  • 当行政也背上了募资KPI
  • 百川智能获阿里腾讯等3亿美元投资;vivo AI助手Jovi Copilot曝光;商汤推医疗健康大模型“大医”丨AIGC大事日报
  • 硬刚GPT-4!百度文心大模型4.0开启邀测,10余款AI原生应用炸场,国家跳水队站台
  • 开源掌门人云端盛会,你准备好成为开源创新协作的奇点吗?
  • 突发!MIUI 时代落幕,雷军官宣:全新「小米澎湃OS」来了!
  • 自动驾驶数据不用愁!港中文等发布MagicDrive:日夜、雨晴、多视角全覆盖,人、物位置随意变更
  • GPT-4V多模态能力惊人!公式截图直出代码,「龙与魔法世界」瞬间生成,OpenAI总裁激动转发
  • 微软斯坦福新算法,杜绝AI灭绝人类风险!GPT-4自我迭代,过程可控可解释
  • 大模型无法替代码农!普林斯顿芝大惊人发现:GPT-4解决GitHub编程问题成功率为0
  • 这100道练习题,带你玩转Numpy!
  • 除了自动化,数据平台的业务能力还有哪些?
  • 如何基于Apache Doris构建高性能指标引擎?
  • 开源数据库 MatrixOne 的 HTAP 分布式架构演进
  • 数据科学的业务价值转化秘籍
  • MiniGPT-4升级到MiniGPT-v2了,不用GPT-4照样完成多模态任务
  • ChatGPT重压下,Stack Overflow裁员28%,为自家生成式AI工具开源节流
  • 清华团队攻破GPT-4V、谷歌Bard等模型,商用多模态大模型也脆弱?
  • 谷歌视觉语言模型PaLI-3问世,参数仅5B,更小、更快、更强