DALL·E 3原来是这样炼成的!OpenAI亲自解密,ChatGPT上可用

夕小瑶科技说 原创
编译 | 谢年年、王二狗
喜大普奔!

OpenAI今天官宣,DALL·E 3 现已向所有 ChatGPT Plus 和企业版用户开放!

其实 OpenAI 早在一个月之前就发布了DALL·E 3,奈何只有一部分内侧用户能使用到,这可把全球的AI小伙伴给馋坏了。

好在今天终于等到了!

在欣赏OpenAI的官网展示之前,我们先自己动手玩玩它(手动狗头)!

输入:一只马🐎正在骑着宇航员👨‍🚀

DALL·E 3的生成结果:

DALL·E 3只生成对了一半,也不知背后是什么算法。

我给它加大难度!

输入:两只马🐎正在骑着宇航员👨‍🚀

DALL·E 3的生成结果:

接着输入:三只马🐎正在骑着宇航员👨‍🚀

DALL·E 3的生成结果:

妈呀,最后一张图宇航员好惨😂

好吧,休息一下,下面是 OpenAI 官网的展示,使用DALL·E 3可以辅助做科学项目、网站设计和企业标志。


除此之外,DALL·E 3生成各种风格的绘画能力也是一绝。


让我们来看看官网放出的例子,美轮美奂又充满想象力,是每一张都想要保存下来做屏保的程度。

水彩杰作,在旧纸上绘制,带有金色色调,取材于印象派和荷兰黄金时代的艺术:-位身着飘逸红色连衣裙的女性在风景如画的东方花园中的鹅卵石小路上漫步。雨水打在水面上,与日落相结合,创造出令人着迷的波光粼粼的倒影。

这幅混合媒体绘画采用金属墨水和水彩画而成,其风格让人想起印象派,在闪闪发光的银色草地上展示了一匹迷人的绿马。风景上点缀着柔和的蓝色罂粟花,它们的花朵在金属色调的映衬下显得格外引人注目。错综复杂的细节和光芒四射的效果提升了艺术品的档次,赋予其梦幻般的品质。


漂浮在太空中的宇航员躺在云朵上,云朵变成了一把舒适的扶手椅,扶手上有一个云朵形状的遥控器。宇航员对着镜头挥手,在他们的脚下,地球是一个令人着迷的色彩和灯光旋涡。

一个巨大的观察眼睛,虹膜错综复杂,瞳孔与向日葵类似。深邃而黑暗的瞳孔出现在向日葵的中心,周围的金色虹膜图案与花瓣相映。

一座折纸雕塑,描绘了一个骑士手持盾牌与一只喷火的龙搏斗的场景,并加入了轻微的景深效果。

一幅柔和的水彩画,描绘了一个清爽的秋日中的一棵树。金红和橙色的树叶象征着人们可以获得的丰富知识。附近的鸟儿高飞着,每只鸟都抓着一面横幅,上面有完整短语的一部分:“试着了解一切,也试着了解一件事的方方面面!”

一幅油画,散发着伦勃朗特的杰作氛围,描绘了一只小鸡躲在鸡舍里。它专心地阅读着一份报纸,上面写着醒目的标题:“狐狸再次袭击”。这个场景通过深邃的阴影和戏剧性的光影交织,唤起了小鸡眼中的好奇和关切。

在一个方形木制面板上的玻璃马赛克作品:一个水下场景,闪烁着生动的海洋生物——由闪光的彩瓷砖制成的鱼类、由彩色玻璃碎片组成的珊瑚形态以及反射的碎片从不同的角度捕捉光线。

精致的纸上有轻微磨损的Kirigami插图:复杂的3D弹出式传统日本花园,有锦鲤池和石灯笼-通过精确的切割和折叠将自然场景带入生活-剪纸和折叠纸的艺术创造雕塑设计。

一个色彩柔和的像素艺术场景,一个皮肤白皙的老年高加索女士。靠着阳台栏杆休息,沉浸在旧金山迷人的晨景中。海湾里到处都是小帆船,金门大桥高耸在人群中。餐桌和椅子上的多肉植物增强了阳台的氛围。

一幅近景的柔和野兽派绘画,描绘了一个年轻夫妇手牵手在巴黎拥挤的小巷中漫步。天空下着毛毛细雨,湿漉漉的鹅卵石街道映照出周围的建筑物。藤蔓优雅地垂挂在建筑物的侧面,露天酒吧里坐满了顾客,其中一些人凝视着外面,享受雨水的宁静。在背景中可以隐约看到埃菲尔铁塔的轮廓。

天空中有一朵奇异的、蓬松的云,在宁静的蓝色背景下,巧妙地形成了一只顽皮的小狗。

一部20世纪40年代的经典卡通,描绘了一个机器人拿着一个冒着蒸汽的咖啡杯,上面有一个闪电符号。对话气泡上写着“需要给我充电”,机器人坐在咖啡店室内的一张桌子旁边的海湾窗前。

OpenAI 公布 DALL·E 3论文

OpenAI这次也公布了DALL·E 3的论文,单从论文作者的名字拼音来看,可能多达一半都是华人作者!


OpenAI在论文中证明,通过在高度描述性的生成图像标题上进行训练,文本到图像模型的prompt遵循能力可以得到显著提高。现有的文本到图像模型难以遵循详细的图像描述,经常忽略单词或混淆prompt的含义。OpenAI假设这个问题源于训练数据集中的嘈杂和不准确的图像标题。为了解决这个问题,OpenAI 训练了一个定制的图像标题生成器,并使用它重新标注训练数据集。OpenAI 训练了几个文本到图像模型,发现在这些合成标题上的训练可靠地提高了 prompt 遵循能力...... 最终就产生了DALL·E 3模型!

更多内容细节可以查看原论文:

https://cdn.openai.com/papers/dall-e-3.pdf

打造负责任安全的DALL·E 3

OpenAI表示DALL·E 3采用了多层安全系统,限制其生成潜在有害图像的能力,包括暴力、成人或仇恨内容。在向用户呈现生成的图像之前,会对用户的提示和生成的图像进行安全检查。

OpenAI还与早期的用户和专家进行合作,识别和解决了新模型功能带来的安全系统漏洞。例如,通过用户反馈帮助确定了图像内容生成的边界情况,如性暗示图像,并对模型生成具有误导性的图像的能力进行了压力测试。

因此,OpenAI非常重视用户的反馈。当用户在使用中遇到不安全的输出或最终输出与在ChatGPT中给出的提示不符,用户可以点击旗帜图标向研究团队提供反馈。

在DALL·E 3的部署环节中,OpenAI还采取了措施限制模型生成特定艺术家风格的内容,避免生成公众人物的图像,并改善生成图像中的人口代表性等问题。

除此之外,OpenAI正在研究一种分类器,以识别图像是否由DALL·E 3生成。在早期的内部评估中,当图像未经修改时,该分类器在识别图像是否由DALL·E生成方面的准确率超过99%。即使图像经过裁剪、调整大小、JPEG压缩等常见类型的修改,或在生成的图像的一小部分上叠加真实图像的文本或剪贴图,该分类器的准确率仍然超过95%。但是,OpenAI表示,即使在内部测试中取得了强大的结果,但分类器只能表示图像很可能由DALL·E生成,还不能给出最终的结论。因此该技术还需要进一步优化。

版权保护

前段时间,部分艺术家抗议OpenAI将自己的作品用作训练数据的事情闹得沸沸扬扬,关于AIGC产出内容的版权归属问题一直存在争议。

此次更新,DALL·E 3 拒绝了要求提供在世艺术家风格的图像的请求。他们还为艺术家们提供了选择将他们的图像从未来图像生成模型的训练中剔除的选项。

别光顾着看了!亲自动手玩起来吧!

相关推荐

  • 吴恩达开新课了:面向所有人的生成式 AI 课程!我已偷偷学了起来
  • ICCV 2023 | 面向视觉-语言导航的实体-标志物对齐自适应预训练方法
  • 性能强劲又通用!Meta-CoT: 混合问题场景下的自适应思维链推理
  • 更大更强!有请智源 Uni3D 视觉大模型,从「最强2D」升维「最强3D」
  • 神器!三行Python代码轻松提取PDF表格数据
  • 如何优化PyTorch模型训练?
  • 度小满自动机器学习平台实践
  • 智能化数据平台实践
  • 复旦大学联合华为诺亚提出VidRD框架,实现迭代式的高质量视频生成
  • 获1000万美元捐款,用于代码重构、上云,论文预印版平台arXiv「好起来了」
  • 专访MIT贾皓钧&段辰儒博士:AI4S时代的化学材料发现——「AI炼金术」
  • 在RTX 4090被限制的时代下,让大模型使用RLHF更高效的方法来了
  • OpenAI终于Open一回:DALL-E 3论文公布、上线ChatGPT,作者一半是华人
  • 清华版「AutoGPT」登GitHub热榜!复杂任务轻松搞定,还能自己训练模型
  • 提示工程夭折?MIT斯坦福让大模型主动提问,自己搞明白你想要什么
  • arXiv可算有钱搞服务器了:新获1000万美元捐款,正在线火热招人
  • 清华系百亿估值大模型公司自曝:年内已融资25亿!
  • DALL·E 3关键技术公开!19页论文揭秘如何对提示词“唯命是从”
  • 没绷住,vivo提前“泄密”大模型能力
  • 分了 100 万。