背景:
现在文本到图像模型取得了重大进展,但实现超逼真的人类图像生成仍然是一项理想但尚未解决的任务。现有模型(例如stable diffusion和 DALL·E 2)往往会生成部分不连贯或姿势不自然的人像图片。为了应对这些挑战,作者认为,人类图像本质上是跨多个粒度的结构,从粗粒度的身体骨骼到细粒度的空间几何。因此,在一个模型中捕获显式外观和隐式结构之间的这种相关性对于生成连贯且自然的人像图片至关重
主要贡献:
提出了一个统一的框架 HyperHuman,它可以生成高度真实和多样化布局的开放场景下的人像图片。具体如下:
1)首先构建以人类为中心的大规模数据集,名为 HumanVerse,它由 3.4 亿张图像组成,具有人体姿势、深度和表面法向量等详细标注。
2)提出了一种隐式结构扩散模型(Latent Structural Diffusion Model),该模型可以同时对深度和表面法向量以及合成的 RGB 图像进行去噪。模型在统一网络中强制执行图像外观、空间关系和几何形状的联合学习,其中模型中的每个分支在结构意识和纹理丰富性方面相互补充。
3)最后,为了进一步提高视觉质量,提出了一种结构引导细化器来组合预测条件,以更详细地生成更高分辨率。大量的实验表明,我们的框架具有SOTA的性能,可以在不同的场景下生成超逼真的人类图像。
效果展示:
和其他算法对比:
整体框架:
HyperHuman 框架概述。在潜在结构扩散模型(紫色)中,图像 x、深度 d 和表面法线 n 对图片描述 c 和姿势骨架 p 进行联合去噪调节。在结构引导精炼器(蓝色)中,我们构建了更高分辨率生成的预测条件。请注意,灰色图像是指随机丢弃条件,以实现更稳健的训练。
定量分析结果: