Stable Diffusion新玩法火了!给几个词就能生成动图,连动图人物的表情和动作都能随意控制

夕小瑶科技说 原创
作者 | 小戏

单说大模型 AI 的发展对人们想象力释放的助力,基于 Stable Diffusion 模型的方法首当其冲。透过文本描述到图像生成技术,大模型为我们的想象力打开了一个恢弘的梦幻世界。透过点滴文字,就有可能重现禁锢在我们脑海中无法释放的光怪陆离

而最近,Stable Diffusion 持续进化,打个响指加一个框架使用 AnimateDiff,文本图像生成便可以由静到动,一次性的将个性化文本生成的图像进行动态化,实现一键生成 GIF 动图!首先,来展示一下 AnimateDiff 的动图生成效果,当我们希望生成展示一个在客厅高兴的穿着自己新盔甲的女孩的图像时,捕捉关键词 cybergirl,smiling,armor,living room 等等,稍作修饰输入如下 Prompt:

long highlighted hair, cybergirl, futuristic silver armor suit, confident stance, high-resolution, living room, smiling, head tilted.

即可以得到一段自然逼真的动态图像:

类似的,使用 Prompt:

1 girl, anime, long pink hair, necklace, earrings, masterpiece, highly detailed, high quality, 8k

可以生成一段更加动漫风格的 GIF:

利用不同风格的模型,这些生成的动图可以是充满动漫风的卡通形象:

也可以是更加逼真的人物造型:

可以是动漫电影的背景片段:

也可以是水墨风的艺术画卷

而更有意思的,是 AnimateDiff 支持与 ControlNet 结合使用,譬如我们希望让前文生成的盔甲女孩模仿下图女孩的动作:

只需要非常简单的配置启用 ControlNet,将上图作为控制图就可以生成如下的图像,上文生成出的盔甲女孩完美的模仿了上图中女孩的动作,为自定义的动图生成添足了想象力!


同时,通过使用 motion LoRA 方法,利用 Prompt 我们还可以控制“摄像机”的动作,譬如我们希望摄像机向左平移,即背景向右移动,可以在 Prompt 中添加 <lora:v2_lora_PanLeft:0.75 > 表示使用0.75的权重让摄像机向左平移,生成的效果如下图:

此外,AnimateDiff 还支持图像到动图的生成,我们可以定义生成动图的初始图像与结束图像,从而使用 AnimateDiff 补全运动过程。从训练方式上来看,AnimateDiff 也并不复杂,在用户个性化或自定义的文本-图像生成模型(T2I)的基础上,AnimateDiff 使用短视频的剪辑数据完成了一个运动建模模块的训练,类似一个插件,AnimateDiff 通过在 T2I 模型使用基础上嵌入这个运动建模模块,从而使得图像成功“由静转动”

毋庸置疑,单一静态的图像表达能力存在上限,而 AnimateDiff 点石成金般赋予图像“动起来”的能力,极大的扩展了我们简单的输入文本的表达能力。从抽象的语言文字到具象的图片再到细节更加丰富的动图(视频),Stable Diffusion 逐步进化高速发展。走到 AnimateDiff,恰如国外的一则新闻所述:很有可能,AnimateDiff 会重新定义整个动画行业!

相关推荐

  • 你从来没见过的20种口味可口可乐,看看你爱上了哪一款
  • SpringBoot 接口签名校验实践
  • 快速掌握 9 种 UML 图,5分钟上手,附10张实操案例!
  • 成都周报 | 苹果CEO库克到访,高新区将设置200亿数字经济基金
  • 动图图解马尔科夫链、PCA、贝叶斯!
  • 倒计时 1 天!1024 程序员节全日程公开(附参会指南)
  • NVIDIA Jetson助力AI教育教学与视觉感知应用创新
  • B站数据质量保障体系建设与实践
  • DeepMind:大模型又曝重大缺陷,无法自我纠正推理,除非提前得知正确答案
  • H800/A800受限牵涉「云上算力」!美正酝酿新规管制云服务
  • GPT-4不知道自己错了! LLM新缺陷曝光,自我纠正成功率仅1%,LeCun马库斯惊呼越改越错
  • 220亿晶体管,IBM机器学习专用处理器NorthPole,能效25倍提升
  • 清华朱文武团队:开源世界首个轻量图自动机器学习库AutoGL-light
  • UC伯克利团队开源MemGPT大模型上下文内存管理方案;AgentLM、多模态Fuyu-8B、数学LLEMMA等专用大模型开源
  • 解决大模型复现难、协作难, 这支95后学生团队打造了一个国产AI开源社区
  • ChatGPT与DALL·E 3之间的行业「黑话」被人发现了
  • 一行代码提高大模型10%性能,开发者:免费午餐
  • 让大模型看图比打字管用!NeurIPS 2023新研究提出多模态查询方法,准确率提升7.8%
  • 陶哲轩疯狂安利Copilot:它帮我完成了一页纸证明,甚至能猜出我后面的过程
  • 百岁数学巨匠陨落!丘成桐视他为师,90岁依旧研究数学