AI 人像生成再度进化!

大家好,今天和大家分享最新的一篇 AI生成相关的工作,本文的重点在于对于人像生成的优化,之前的工作,例如stable diffusion等,对于真人生成效果存在一定的缺陷,基于此为出发点,本文贡献了新的数据集,并提出一个新的隐式结构扩散模型结合姿态图、深度图等,生成更逼真的人像图片。

背景:

现在文本到图像模型取得了重大进展,但实现超逼真的人类图像生成仍然是一项理想但尚未解决的任务。现有模型(例如stable diffusion和 DALL·E 2)往往会生成部分不连贯或姿势不自然的人像图片。为了应对这些挑战,作者认为,人类图像本质上是跨多个粒度的结构,从粗粒度的身体骨骼到细粒度的空间几何。因此,在一个模型中捕获显式外观和隐式结构之间的这种相关性对于生成连贯且自然的人像图片至关重

主要贡献:

提出了一个统一的框架 HyperHuman,它可以生成高度真实和多样化布局的开放场景下的人像图片。具体如下:

1)首先构建以人类为中心的大规模数据集,名为 HumanVerse,它由 3.4 亿张图像组成,具有人体姿势、深度和表面法向量等详细标注。

2)提出了一种隐式结构扩散模型(Latent Structural Diffusion Model),该模型可以同时对深度和表面法向量以及合成的 RGB 图像进行去噪。模型在统一网络中强制执行图像外观、空间关系和几何形状的联合学习,其中模型中的每个分支在结构意识和纹理丰富性方面相互补充。

3)最后,为了进一步提高视觉质量,提出了一种结构引导细化器来组合预测条件,以更详细地生成更高分辨率。大量的实验表明,我们的框架具有SOTA的性能,可以在不同的场景下生成超逼真的人类图像。

效果展示:

和其他算法对比

整体框架:

HyperHuman 框架概述。在潜在结构扩散模型(紫色)中,图像 x、深度 d 和表面法线 n 对图片描述 c 和姿势骨架 p 进行联合去噪调节。在结构引导精炼器(蓝色)中,我们构建了更高分辨率生成的预测条件。请注意,灰色图像是指随机丢弃条件,以实现更稳健的训练。

定量分析结果:

相关推荐

  • 为什么我不使用 Next.js?
  • 不到 600 行代码实现了《愤怒的小鸟》翻版,GPT-4+DALL·E 3+Midjourney 撼动游戏圈!
  • 天府月报:天府科创投设立一只早期基金;国家级重点项目最高支持500万
  • 一级市场最活跃的群就是副业群
  • 新项目来咯!
  • 英伟达终于发布自家大语言模型,专攻辅助芯片设计
  • 复杂任务也不怕!上海AI Lab提出增强型LLM框架—ControlLLM,大模型可操控多模态工具
  • 吴恩达怒斥AI阴谋、Hinton自证清白!Lecun掀起图灵奖大战、哈萨比斯进行回怼!美国AI顶流圈乱象纪实…
  • PyTorch 2.1 正式发布,带来自动动态 Shape 支持和分布式训练增强
  • Meta 的无服务器平台是如何做到每天处理数万亿次函数调用的
  • 从互联网到云计算再到 AI 原生,百度智能云数据库的演进 | Q推荐
  • AIGC 是亏钱货?网易杭研是如何抓住大模型价值的
  • OpenAI 刚刚又杀死了一批初创公司
  • 这是我见过最强的Java版内网穿透神器!
  • 一行代码搞定禁用web开发者工具
  • “液态金属”材料亮相,科学方法沙漠取水,这届WE大会很赛博朋克
  • vivo自研大模型/操作系统齐面世!蓝心大模型加持最新OriginOS4
  • OpenAI潜入黑客群聊!盗用ChatGPT被换成“喵喵GPT”,网友:绝对的传奇
  • 姚班斯隆奖马腾宇创业:大模型+顾问李飞飞
  • 单点端到端文本检测识别框架速度提升19倍!华科、华南理工等联合发布SPTS v2