©PaperWeekly 原创 · 作者 | 苏剑林
单位 | 科学空间
研究方向 | NLP、神经网络
盘点主流的图像扩散模型作品,我们会发现一个特点:当前多数做高分辨率图像生成(下面简称“大图生成”)的工作,都是先通过 Encoder 变换到 Latent 空间进行的(即 LDM,Latent Diffusion Model [1] ),直接在原始 Pixel 空间训练的扩散模型,大多数分辨率都不超过 6464,而恰好,LDM 通过 AutoEncoder 变换后的 Latent,大小通常也不超过 6464。
LDM回顾
在进入正题之前,我们不妨先反过来想一想:为什么 LDM 能成功成为主流的扩散模型做法?笔者认为,主要原始是两方面:
1. 不管是应用还是学术,用 LDM 的主要原因想必是效率:当前主流的工作都直接重用了 LDM 论文所开源的训练好的 AutoEncoder,它的 Encoder 部分会将 512512 的图像变成了 6464 的 Latent,相当于说只用到 6464 分辨率这个级别的算力和时间,就可以生成 512512 的图像,这个效率显然是非常吸引人的;
2. LDM 契合了 FID 这个指标,这让它看起来是效果无损的:FID 全称是 “Fréchet Inception Distance”,其中 Inception 是指用 ImageNet 预训练的 InceptionV3 模型作为 Encoder 编码图片,然后假设编码特征服从高斯分布来算 距离,而 LDM 也是先 Encoder 编码,两个 Encoder 虽然不完全相同,但也有一定共性,因此在 FID 上表现为几乎无损。我们还可以稍微展开一下。LDM 的 AutoEncoder 在训练阶段组合了很多内容——它的重构 Loss 并不只有常规的 MAE 或者 MSE,还包括对抗 Loss 和 Perceptual Loss,对抗 Loss 用来保证重构结果的清晰度,而 Perceptual Loss 用来保证重构结果的语义和风格的相似性。Perceptual Loss [3] 跟 FID 很相似,都是用 ImageNet 模型的特征计算的相似性指标,只不过用的不是 InceptionV3 而是 VGG-16,由于训练任务的相似性,可以猜测两者特征有很多共性,因此 Perceptual Loss 的加入变相地保证了 FID 的损失尽可能少。此外,LDM 的 Encoder 对原始图像来说是降维的,比如原始图像大小为 5125123,直接 patchify 的话结果是 6464192,但 LDM 的 Encoder 出来的特征是 64644,降低到了 1/48,同时为了进一步降低编码特征的方差,避免模型“死记硬背”,LDM 还对 Encoder 出来的特征加了相应的正则项,可选的有 VAE 的 KL 散度项或 VQ-VAE [4] 的 VQ 正则化。降维和正则的设计,都会压缩特征的多样性,提高特征的泛化能力,但也会导致重构难度增加,最终导致了有损的重构结果。到这里,LDM 能成功的原因其实就“豁然开朗”了:“降维 + 正则”的组合,降低了 Latent 的信息量,从而降低了在 Latent 空间学习扩散模型的难度,同时 Perceptual Loss 的存在,保证了重构虽然有损但 FID 几乎无损(Perceptual Loss 的 Encoder 跟 FID 一样都用 InceptionV3 理论上更好)。
这样一来,对于 FID 这个指标来说,LDM 几乎就是免费午餐了,因此不管是学术和工程都乐意沿用它。
▲ 同一noise不同分辨率的信噪比
所谓“信噪比”,顾名思义即“信号与噪声的强度之比”,信噪比更高(即噪声的占比更低)意味着去噪更容易,换言之训练阶段 Denoiser 面对的更多是简单样本,但实际上大图生成的难度显然更高,也就是说我们的目标是一个更难的模型,但却给了更简单的样本,因此导致了学习效率的低下。
至于实验部分,大家自行看原论文就好。Simple diffusion 实验的最大分辨率是 1024*1024(在附录中提到),效果都尚可,并且对比实验表明上述提出的一些技巧都是有提升的,最终直接在 Pixel 空间中训练出来的扩撒模型,相比 LDM 也取得了有竞争力的效果。
文章小结
在这篇文章中,我们介绍了 Simple Diffusion,这是一篇探索如何直接在 Pixel 空间中端到端地训练图像扩散模型的工作,利用了信噪比的概念介绍了高分辨率扩散模型的训练效率低问题,并由此来指标调整新的 noise schedule,以及探索了如何尽可能节约算力成本地 scale up 模型架构。
参考文献
[1] https://arxiv.org/abs/2112.10752
[2] https://arxiv.org/abs/2301.11093
[3] https://arxiv.org/abs/1603.08155
[4] https://kexue.fm/archives/6760
[5] https://arxiv.org/abs/1505.04597
[6] https://arxiv.org/abs/2209.12152
更多阅读
#投 稿 通 道#
让你的文字被更多人看到
如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。
总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。
PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。
📝 稿件基本要求:
• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注
• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题
• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算
📬 投稿通道:
• 投稿邮箱:hr@paperweekly.site
• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者
• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿
△长按添加PaperWeekly小编
🔍
现在,在「知乎」也能找到我们了
进入知乎首页搜索「PaperWeekly」
点击「关注」订阅我们的专栏吧