又火一个惊艳的开源项目,诞生了!

大家好,今天继续聊聊科技圈发生的那些事。

一、ToonCrafter

ToonCrafter 可以通过预训练的图像到视频扩散先验来插值两个卡通图像。通俗点说,就是给出起始帧,给出结束帧,ToonCrafter会帮你补全中间的部分,生成一段完整的视频图像。另外,它还有个功能,基于给出的草图,给草图中的内容上色。

ToonCrafter基于图像条件的扩散模型,通过丰富的运动先验来合成复杂的非线性运动和现象。主要包括三个关键的技术:

  • 卡通矫正学习:通过对预训练的生成模型进行微调,使其能够更好地理解动画的上下文,并生成与卡通风格匹配的内容。
  • 细节注入与传播解码:引入一个基于双参考的3D解码器,使用混合注意力残差学习机制,将有损的帧潜在变量转换回像素空间,并注入输入图像中的细节信息。
  • 基于草图的可控生成:ToonCrafter配备了一个帧独立的草图编码器,使用户能够通过草图输入来引导生成过程。

我们来看一个具体的例子:

将这两张图作为起始帧和结束帧,让 ToolCrafter 进行补全。

成功补全风中凌乱的发型,效果生动逼真,灵动飘逸,毫无违和感。

这个工具最优秀的特点是,生成出的gif图体积极小,给出的这些demo示例大多都只有几百KB的大小。同时,还能兼顾生成质量。

项目已经开源,也已经有了 HuggingFace 的在线体验,感兴趣的小伙伴,可以体验看看。

在线体验地址:

https://huggingface.co/spaces/Doubiiu/tooncrafter

项目地址:

https://github.com/ToonCrafter/ToonCrafter

二、Stable-Diffusion-3-Medium

备受瞩目的Stable Diffusion 3,终于开源了!

SD3 自从二月份发布以来,其优秀的性能就一直好评不断。而在几天前的6月12日,Stability AI 正式宣布开源 SD3!

据悉,本次开源的Stable Diffusion 3 Medium 包含20万亿个参数,代表了Stability AI目前的最高水准。在 HuggingFace 上已经可以下载到模型权重文件了。

话不多说,我们先来看看效果:

An astronaut riding a green horse

SD3相比起前代,主要提升了生成图像的细节处理,图像的质量会很高。同时,模型的尺寸非常优秀,即使是在常见的消费级GPU上,也有非常卓越的性能。

顺提一句,SD3已经能支持8k生成了,不过整出来的文件过大,这里就不直接放效果图了。

不过目前也有消息称,SD3在人像生成方面可能会出现一些比较“惊悚”的现象,针对整个人体的生成,SD3似乎有些不着调,就像这样...

或许是数据集的问题,SD3无法理解完整的人类图像,在生成此类图像的时候,就略显尴尬了。

不过,抛开这个问题不谈,SD3绝对是一款优秀的文本生成图像模型!无论是生成图像的精细程度,还是生成效率,都有很大的提升。感兴趣的小伙伴,可以自行体验一下。

在线体验地址:

https://huggingface.co/spaces/stabilityai/stable-diffusion-3-medium

三、consistent-character

今天咱们要说的第三个项目 consistent-character,是一个偏娱乐向的项目。

这个项目在 HuggingFace 上的介绍非常简单:Create images of a given character in different poses,也就是让图像上的角色以不同的姿势出现。当然,既然要提供prompt生成,常见的换衣服功能也是必不可少的。

所以,我们要第N次请出咱们的皮衣刀客了,每次不知道拿谁当输入素材的时候,总会找到老黄的...

作为示例,咱们就用默认的prompt吧,换身衣服就可以了。

这里一定要记得打开这个选项,让生成的图像能有随机的pose,注入项目的灵魂。

效果还不错!咱们的皮衣刀客瞬间斯文了一把,穿上了笔挺的西装,一副大佬样。可以看到,项目生成的图片给老黄换了几个不同的姿势,甚至是个“无死角”的帅哥呢。

那么,如果我们再换一个prompt,来点不一样的风格呢?

a man, Mohican hairstyle, rocker style undershirt.

男子,莫西干发型,摇滚风格打底衫

画风突变!这感觉,令人有点无法言说。

这个项目目前还没有开源,这里给出 HuggingFace 的地址,可以放上自己想操作的照片,给出prompt,就可以试试这个奇妙的效果了。不过,如果照片分辨率太高,等待时间可能会比较长。感兴趣的小伙伴可以自行体验看看!

在线体验地址:

https://huggingface.co/spaces/fffiloni/consistent-character

好了,本期的内容就是这么多,我们下期再见!


推荐阅读

(点击标题可跳转阅读)

《机器学习 100 天》视频讲解

公众号历史文章精选

我的深度学习入门路线


重磅

1700多页的《人工智能学习路线、干货分享全集》PDF文档



扫描下方二维码,添加我的微信,领取1700多页的《人工智能学习路线、干货分享全集》PDF文档(一定要备注:入群 + 地点 + 学校/公司。例如:入群+上海+复旦。 



长按扫码,申请入群



感谢你的分享,点赞,在看三  

相关推荐

  • 泪目!博士论文致谢走红:感谢博一与我结婚的妻子
  • 217亿,字节打响拆分IPO的第一枪
  • Java ORM 双雄:Mybatis 和 Hibernate,你选哪个?
  • 又一个新项目完结,炸裂!
  • 奥特曼和老黄打起来了!Luma干的。。。
  • AlphaFold的伟大,只因做对了这5件事!DeepMind副总裁:团队注定会取得突破
  • 陶哲轩最新采访:AI将颠覆数学界!用Lean规模化,成百上千条定理一次秒杀
  • 英伟达开源3400亿巨兽,98%合成数据训出最强开源通用模型!性能对标GPT-4o
  • 北航等提出超大规模多语言代码评测基准,涵盖40种编程语言
  • ACL 2024 | 多模态大模型能揭示图像背后的深意吗?
  • 惊呆!大模型工程师月薪快10w了!
  • 【第17讲】6月19日,AI智能体实战-第二期
  • 京东员工:年薪百万,到手很“虚”。一年存款只有4万块,日子很“穷”
  • 领域大模型的挑战与机遇:从构建到应用
  • Stanford发布501页全球AI指数报告:中美两国引领世界,但有一项中国不如印度(附报告全文)
  • 突发!Sam Altman与OpenAI股东正式提出公司转型,成为营利性公司!!
  • SIGGRAPH2024|上科大、影眸联合提出DressCode:从文本生成3D服装板片
  • 有望解决一个千禧年大奖难题,这个20多年前的猜想终于得到证明
  • 英伟达开源最强通用模型Nemotron-4 340B
  • 仅存活三个月的Copilot GPTs,因无盈利希望,被微软强制「退休」