微软刚刚发布了VASA-1:单张照片生成超现实真人视频,还没开源但是性能SOTA

 夕小瑶科技说 原创
 作者 | 任同学

还记得阿里巴巴那个让照片说话的EMO项目吗?如果还没有看过相关的报道,可以看一下我们之前发过的文章哦:

比阿里EMO抢先开源!蔡徐坤“复出”唱RAP,腾讯AniPortrait让照片变视频,鬼畜区UP狂喜!看看哪家效果好

现在 Microsoft Research 推出了VASA-1项目,同样是单张人像照片+语音音频=超现实的说话脸视频,但是性能SOTA!

VASA-1 可实现精确的唇声同步,逼真的面部行为,自然的头部运动,并支持实时生成!

据作者报道,该 VASA-1 不仅能够产生与音频同步的嘴唇动作,而且还能够捕捉到大量的面部细微差别和自然的头部动作,从而有助于感知真实性和人物状态。

可以看到表情非常到位,特别是那灵活的小眼神!

相比之前的高启强普法视频,眼神、眉毛的动作显然要自然很多。

更好的可控性

VASA-1 的一个显著的特性是它可以接受可选信号作为条件,如主眼睛注视方向和头部距离,以及情绪偏移。这不仅增强了可玩性,重要的是动画效果更加自然!

▲不同主注视方向(前、左、右、上)下的生成结果▲不同头距尺度下的生成结果▲不同情绪(分别为中性、快乐、愤怒、惊讶)下的生成结果

非常优秀的分布外泛化能力

对于分布外的照片,比如油画、动漫中的人物,也一样可以让他或自然或鬼畜的说话!

实时生成高质量内容

不仅生成的效果非常逼真,VASA-1更是支持在离线批处理模式下以45fps的速度生成512x512大小的视频帧,在在线流媒体模式下可以支持高达40fps的视频帧,前延迟仅为170ms!

官方的展示demo中丝滑的生成过程以及丰富的可编辑选项都能看出这项工作的成熟度,真是把吃瓜群众都给看急眼了,究竟啥时候才能玩啊。

什么是VASA-1

区别于以往的方法,VASA-1不直接生成视频帧,而是根据声音和其他信号在潜在空间中生成整体面部动态和头部运动。

VASA-1 的面部解码器将这些动作潜在编码生成视频帧,同时也将从输入图像中提取的外观和身份特征作为输入。

在论文中,作者还研究了音频和头部姿态之间的同步性测量问题,并提出了一种新的度量方法,称为“Contrastive Audio and Pose Pretraining”(CAPP)分数。

据作者介绍,这个方法受到了CLIP模型的启发,它通过联合训练一个姿态序列编码器和一个音频序列编码器来工作,其目标则是预测输入的姿态序列和音频是否配对。其中的音频编码器是基于一个预训练的Wav2Vec2网络初始化的,而姿态编码器是一个随机初始化的6层 transformer。

该 CAPP模型在大约2000小时的真实生活音频和姿态序列上进行了训练,并且展示了强大的能力来评估音频输入和生成的姿态之间的同步程度。

或者正是通过这种音频和头部姿态的对齐预训练才使得 VASA-1具有这么逼真的生成效果吧!

怎么还不开源?

微软表示,在还不能避免技术滥用的情况下,他们不打算发布在线演示、API、产品、其他实现细节或任何相关产品,直到确定该技术将被负责任地使用。或者这也是阿里的 EMO 迟迟没有更新 github 的原因吧?那为啥腾讯就发布了捏?

参考资料

[1]https://x.com/bindureddy/status/1780737428715950460 

相关推荐

  • 最强开源大模型 Llama 3震撼发布!开源模型将追上GPT-4,4000亿参数模型也在路上
  • 41岁,北大毕业,大厂工作15年,职级P9的老公被裁。赔偿818148.61元
  • 博士申请 | 美国亚利桑那大学杨幻睿老师招收机器学习方向全奖博士/实习生
  • ​AAAI 2024 | 杭电等提出MINDS,基于序列超图和对抗学习增强多尺度扩散预测
  • 高效涨点!用Transformer模型发Nature子刊(文末送书)
  • 看了我常用的数据库设计技巧,同事也开始悄悄模仿了...
  • 图像处理,计算机视觉和人工智能之间的差异
  • 【深度学习】一文看懂注意力机制
  • 突发!刚刚公布!全体前端人彻底狂欢吧......
  • Llama3-8B/70B大模型开源及RAG工作梳理:兼看4月份上半月大模型技术进展总结预告
  • 4场公开课!大模型压缩技术的创新与突破
  • 大模型输出概率 logprobs
  • Python 离群点检测算法 -- KNN
  • Llama 3来了!
  • 太卷了!今年的 AAAI 顶会有点猛。。。
  • 面试官:为什么不建议在 MySQL 中使用 UTF-8 ?
  • 这程序员哥们牛啊!领导让他交裁员名单,他想报自己,拿20万赔偿,赚套房子首付
  • 专治大模型说胡话,精确率100%!华科等提出首个「故障token」检测/分类方法
  • AI时代新风口!吴恩达亲授智能体四大设计模式
  • 全球首个「开源GPT-4」出世!Llama 3震撼发布,Meta AI免登录可用