北大快手攻克复杂视频生成难题!新框架轻松组合各种细节,代码将开源

杨灵 投稿自 凹非寺
量子位 | 公众号 QbitAI

如何生成高难度、指令超复杂的视频呢?

北大与快手AI有解了,他们提出新框架VideoTetris,就像拼俄罗斯方块一样,轻松组合各种细节~

在复杂视频生成任务中,超过了Pika,Gen-2等一众商用模型。

这个框架不仅能够直接增强现有模型的组合生成,还能够支持涵盖多复杂指令、多场景变更等更高难度的长视频生成。

首次定义组合视频生成

文生图领域,RPG、Omost等项目已经实现了复杂的组合式多物体多场景图片生成。而在文生视频领域,组合生成自然地扩展到时间和空间维度,这样的场景还未被广泛探索。

团队首次定义了组合视频生成任务,包括两个子任务:
1、跟随复杂组合指令的视频生成。2、跟随递进的组合式多物体指令的长视频生成。

目前经团队测试发现,几乎所有开源模型,包括商用模型在内都未能生成正确的视频。

比如输入“左边一个可爱的棕色狗狗,右边一只打盹的猫在阳光下小憩”,结果生成的都是融合了两个物体信息的奇怪视频。

而使用VideoTetris,生成出的视频是这样,成功保留了所有的位置信息和细节特征。

在长视频生成中,目前的方法支持的可变指令目前还停留在“春夏秋冬”的转化,或单物体从走到跑到骑马的场景变化阶段。

团队输入一个简单的多指令:“从一只可爱的棕色松鼠在一堆榛子上过渡到一只可爱的棕色松鼠和一只可爱的白色松鼠在一堆榛子上”。

结果VideoTetris成功搞定,出现顺序也与Prompt一致,最后两只松鼠还在自然地交换食物。

使用了时空组合扩散方法

这样的效果是如何做到的呢?该团队的 VideoTetris 框架使用了时空组合扩散方法

他们将一个提示词首先按照时间解构,为不同的视频帧指定好不同的提示信息。


随后,在每一帧上进行空间维度的解构,将不同物体对应不同的视频区域。

最后,通过时空交叉注意力进行组合,通过这个过程实现高效的组合指令生成。

而为了生成更高质量的长视频,该团队还提出了一种增强的训练数据预处理方法。使得长视频生成更加动态稳定。

此外,还引入了一个参考帧注意力机制,使用原生VAE对之前的帧信息编码,区别于StreamingT2V,Vlogger,IPAdapter等使用CLIP 编码的方式,这样使得参考信息的表示空间和噪声完全一致,轻松获取更好的内容一致性。

这样优化的结果是,长视频从此不再有大面积偏色的现象,能够更好地适应复杂指令,并且生成的视频更具有动感,更符合自然。

对于这种组合生成的结果评测工作,该团队引入了新的评测指标VBLIP-VQA和VUnidet,将组合生成评价方法首次扩展到视频维度。

实验测试表明,在组合视频生成能力上,该模型的表现超过了所有开源模型,甚至是商用模型如Gen-2和Pika。


据介绍,该代码将完全开源。

论文地址:
https://arxiv.org/abs/2406.04277

项目主页:
https://videotetris.github.io/

GitHub地址:https://github.com/YangLing0818/VideoTetris

—  —


投稿请发邮件到:

ai@qbitai.com

标题注明【投稿】,告诉我们:

你是谁,从哪来,投稿内容

附上论文/项目主页链接,以及联系方式哦

我们会(尽量)及时回复你


点这里👇关注我,记得标星哦~

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见 ~ 


相关推荐

  • Hinton为拒马斯克offer扯谎挂电话,警告AI取代人类比想象中快30年
  • 打通智能体「自我进化」全流程!复旦推出通用智能体平台AgentGym
  • ACL 2024 | 大语言模型的安全对齐会适得其反?无需训练便能逆转安全对齐
  • Transformer升级之路:RoPE的底数设计原则
  • LLM+推荐:训练推理新范式!
  • 小红书图数据库在分布式并行查询上的探索
  • Meta新模型NLLB获Nature盛赞,200种濒危语言高质量翻译,「不让任何语言掉队」
  • 代码都让AI写,CS还有前途吗?加州大学伯克利分校:CDSS申请人数飙升48%!
  • GPT-4不是世界模型,LeCun双手赞同!ACL力证LLM永远无法模拟世界
  • 50个案例带你学会AI视频制作
  • 每日AI资讯-20240616
  • 高质量3D生成最有希望的一集?GaussianCube在三维生成中全面超越NeRF
  • AI将是数学家的得力助手,陶哲轩谈AI在证明过程中的潜力
  • 新一轮「硬件彩票」:MatMul-free 会改变大模型的游戏规则吗?
  • 星环科技孙元浩:语料已经是大模型最大的挑战
  • ACL 2024论文盖棺定论:大语言模型≠世界模拟器,Yann LeCun:太对了
  • 【深度学习】大规模DiT模型部署轻松拿下!港中文等提出TerDiT:性能不输全精度模型
  • 官宣!2024影响因子即将发布,将引入学科类别的统一排名,简化对期刊评估!
  • 三位青椒晒工作前几年的收入变化,有人买的房从4万涨到9万了
  • 文档表格结构识别技术与数据总结:兼看多模态表格理解基准设计及数据构建思路