AI视频新霸主全网翻车，Ilya奥特曼老黄打起来了！动画出现诡异狗头网友笑疯

新智元报道

编辑：编辑部

【新智元导读】这几天，最新发布的Stable Diffusion 3和Luma AI的视频生成模型Dream Machine相继发布，但这两个模型却用非常独特的方式震撼到了网友们。Dream Machine加上二创脑洞成为快乐源泉，SD3输出的诡异图片却散发着浓浓的「黑色幽默」。

昨天诞生的AI视频新霸主——Luma AI的Dream Machine，再次在整个互联网掀起高潮。

网友们昨天还集体表示，要舍弃Pika和Runway了，Dream Machine最好！

借着每个月免费生成三十次的羊毛，大家纷纷试用。但是，其中有不少翻！车！了！

AI圈大佬奥特曼、老黄和Greg正一团和气地合影，下一秒Greg就突然变脸，一拳揍在奥特曼胸前。随后三人陷入缠斗模式，现场乱成一团。

以及下面这个OpenAI曾经一团和气的大合影——

经过Luma模型的妙手之后，又变成了大乱斗场面。

但其实Dream Machine并不是一个有「暴力倾向」的模型，它很少生成打架场面。

比如下面这个，通过奥斯卡颁奖礼的合照生成出的视频，气氛依旧温馨。

看来OpenAI的「宫斗」太明显，连模型都知道了照片背后的故事。（不会是Sora给Dream Machine传了八卦吧）

网友实测让Luma生成动画，发现画面极其诡异——

白色的狗头迅速出现在身体的各部位，随后白狗有丝分裂出第二只白狗，最后白狗直接和棕狗实现了换头。

果然，四年寒窗无人问，一朝翻车天下知。

而且，有推特网友发现，Luma非常倾向于让图片中的人物转身离开，比如下面这张威利·旺卡。

把各种头像图片输入进去，得到也是类似的结果。

这虽然无伤大雅，但是这种单调且「我行我素」的生成结果有些令人恼火，好像是模型怕自己搞出「变脸」，所以干脆让人物转头了。

Luma AI表情包

虽然翻车案例很多，但是创意无限的网友们还是发掘出Dream Machine一个非常有前途的应用——生成表情包动图。

比如这张非常著名的模因图片，经常被用于p成各种表情包：

把图片输入给Luma的模型，它会「脑补」出什么画面？

是正牌女友生气吵架？

还是干脆分手另觅新欢？

看出来Dream Machine的drama特质了，脑补出来的都是大型人性修罗场。

甚至，这个表情包还舞到了Andrej Karpaty大佬面前，他也表示自己受到了一些AI技术的震撼。

Luma AI将图像扩展为视频的新模型确实是另一回事。我凭直觉知道这很快就会成为可能，但看到它并思考未来的迭代仍然是另一回事。

再输入一只表情倔强的柴犬照片，就得到了一张完美的动图。

但下面这个生成结果相对平淡，人物转头后，脸上的表情也消失了。

根据著名的「地铁老人看手机」生成动图后，痛苦的感觉似乎加剧了。

把图片生成模型和Luma放在一起用，还会碰撞出意想不到的效果。

有人突发奇想，用Midjourney生成一张教皇穿羽绒服的图片，再让他走几步，突然可爱了起来。

搭配Stable Diffusiion 3生成的诡异人体图片，输出的动图简直是「恐怖」效果加倍。

Luma不仅没有把畸形的人体纠正过来，而且将错就错。拉近镜头后，人物原本正常的表情都变得令人发指了。

发出这些视频的帖子中，博主还很礼貌地附上了一句「I'm sorry…」，评论表示，看完就后悔了。

‍

SD 3翻车‍

说到刚放出的Stable Diffusion 3的「翻车」图片，这也是网友们最近的快乐源泉。

「我很久没这么开心过了。」

Stability AI表示，这是他们「迄今为止最复杂的图像生成模型」，却引来了全网群嘲。生成的一堆「畸形」图片反而让人认为它大幅退步，落后于Midjourney和DALL-E。

图片的「畸形」程度有多严重呢？

是看了可以做噩梦的地步。

比如，生成出的手指不仅数量不对，形状也十分离奇，根本不像人类的手指。

这张图让人突然想到《瞬息全宇宙》的「香肠手指」设定。

如果仅仅是手指也还说得过去，毕竟这一直是图像生成模型的「顽疾」。

然而，SD3已经到了连人类四肢、躯干都不能好好生成的地步了。

下面这张草地上的人体图片，几乎已经成为SD3翻车的标志性象征了，全身上下没有一个地方是合理的。

‍

在沙滩上的这两张，乍一看外形还不错，细看才能发现有许多恐怖之处。

更匪夷所思的还在下面——

在Reddit的帖子上，网友甚至发出嘲笑般的质疑「这应该是个笑话吧？」

「一段时间前，StableDiffusion 还在与 Midjourney 竞争，现在它看起来就像一个笑话。至少我们的数据集是安全和道德的！」

即使与Stability之前发布的模型相比，也能看出SD3的显著退步。

有网友用相同的prompt输入给SD 1.5、SDXL Turbo和SD 3，并比较了这三个模型的输出结果。

最早的SD 1.5即使没办法做到百分百正确、逼真，至少不会错误到离谱和「恐怖」的程度。

上一代SDXL Turbo生成的图片在真实感之外还做到了构图和光影的美感。

下面的这个对比更加明显，SD3和SDXL的能力仿佛不在一个世界。

这不禁让人怀疑，SD3到底怎么了？

有Reddit用户认为，Stable Diffusion 3的解剖学失败是由于Stability坚持从训练数据中过滤掉成人内容（即NSFW内容，not suitable for work）。

「信不信由你，严格审查模型也会去除人体解剖学内容，所以……这就是发生的原因。」

这个说法虽然乍一听不符合直觉，却有迹可循。

当prompt涉及到训练数据集中未能很好代表的概念时，模型就会根据自己的理解进行最佳解释。

而SD3生成的恐怖结果，就是在没有足够训练数据时，它眼中的人体合理形态。

类似的问题在以前也曾出现过，比如2022年发布的Stable Diffusion 2.0也无法很好地表现人体。

当时，研究人员很快发现，审查包含裸体的成人内容会严重阻碍模型生成准确人体解剖学的能力。

因此，Stability AI 在SD 2.1和SD XL中迅速调整了策略，才让模型恢复了一些因坚决过滤NSFW内容而失去的能力。

在模型预训练期间可能发生的另一个问题是，用来从数据集中删除成人图像的NSFW过滤器有时太过挑剔，意外地删除了可能并不冒犯的图像，从而剥夺了模型在某些情况下对人类的描绘。

对此，有网友猜测「（SD3)只要图片中没有人类就能正常工作，我认为他们改进的NSFW过滤器把所有类人形象都当成了NSFW。」

Stability AI深陷泥沼

Stability在今年2月宣布了Stable Diffusion 3，并计划推出多个版本。

最新发布这一版被称为「Medium」，有2B参数。模型的权重已经开源，既能从Hugging Face下载，也能通过Stability Platform进行实验。

论文地址：https://arxiv.org/abs/2112.10752

2月官宣后不久，SD3 模型权重的发布却延迟了，这激起了Stability存在技术问题或管理不善的谣言。

事实上，Stability这几个月在人事方面的确十分混乱，其创始人兼CEO Emad Mostaque于三月份辞职，随后是一系列裁员。

三位Stable Diffusion的灵魂人物——Robin Rombach、Andreas Blattmann 和 Dominik Lorenz也——离开了公司。

此外，Stability甚至还面临着资金方面的困难。2023 年以来，公司财务状况不佳的消息一直在流传。

对于一些Stable Diffusion的粉丝来说，SD 3 Medium的失败是公司管理不善的外在结果——也是事态恶化的明显迹象。尽管公司尚未申请破产，但在看到新模型后，一些用户开始写下关于破产的黑色幽默段子：

「我猜现在他们能以一种安全且道德的方式破产了。」

参考资料：https://arstechnica.com/information-technology/2024/06/ridiculed-stable-diffusion-3-release-excels-at-ai-generated-body-horror/https://futurism.com/the-byte/new-stable-diffusion-is-mangled

相关推荐

Sora负责人与谢赛宁「隔空对话」，LLM先锋集结中国最硬核AI内行盛会！智源大模型全家桶亮相

每日提示词分享：色彩斑斓

图片会开口唱歌，机器人也会自己开车了

TypeScript 进阶，深入理解并运用索引访问类型提升代码质量

分享我低成本实现睡后收入的方法，新人也适合

【第17讲】6月19日，AI智能体实战-第二期

自学微积分，17岁的天才中专女生闯进全球数学竞赛12强

网易二面：CPU狂飙900%，这怎么处理？

苹果称Swift是取代C++的最佳选择

从分销转向零售，TCL实业是如何考虑中台建设和数据库选型的？

贝壳找房: 为 AI 平台打造混合多云的存储加速底座

Netflix 如何打造高可靠在线有状态系统

喜发新模型，却被众嘲是破产“前兆”！Stability AI “最强”模型人形绘制太“阴间”，网友：因为研发太讲武德

AI 让编程效率提高 100 倍？顺丰用 AI 管理 40w 小哥？ArchSummit 深圳首日热点来袭

被美国列入制裁“实体清单”的西工大——在开源处理器架构RISC-V中发现可远程利用的中危漏洞

奇舞周刊第530期：AIGC和低代码结合应用全栈研发实践总结

巨变时代，ToB软件行业如何穿越周期——2024一村资本主题沙龙活动圆满举办

VC集体退出茶颜悦色？

140元，任何普通眼镜爆改AI助手，网友：《黑镜》成真

大模型理解复杂表格，字节&中科大出手了