ControlNet作者新作爆火:P照片换背景不求人,AI打光完美融入

·衡宇 发自 凹非寺
量子位 | 公众号 QbitAI

ControlNet作者新作,玩儿得人直呼过瘾,刚开源就揽星1.2k。

用于操纵图像照明效果IC-Light,全称lmposing Consistent Light。

玩法很简单:

上传任意一张图,系统会自动分离人物等主体,选择光源位置,填上提示词,就能毫无破绽的融入新环境了!

赶紧来个王家卫式的打光:

不喜欢?

没关系,换成窗外打进来的自然光,也就分分钟的事。

目前,IC-Light提供两类模型:文本条件重照明模型,还有背景条件模型

两种模型都需要以前景图像作为输入。

鉴于之前Controlnet太好玩儿,这次IC-Light一出现就颇受关注,还有网友迅速做出了ComfyUI插件。

(疑惑,大家这么拼,都不睡觉的吗??)

不管是期待值还是用后体验,网友给得都很高:

Nice!迫不及待要上手玩了嘻嘻嘻嘻

谁能帮我把这图换个背景?

从远古MCN到贴吧再到现在小红书,各个时代,都不乏“谁能帮我换张背景”这种求助贴。

但热心网友的帮助,往往是这样子的:

就离谱。

不过说实在话,这种需求不仅存在于你我普通人之间,电商做商品海报,也常常有类似的需求。

有了IC-Light,好像一切都变得简单起来。

上传主体原图+选择光源位置+提示词,完事儿。

来看效果——

这样一张佛像原图,加上提示词“佛像、细致的脸部、科幻RGB发光、赛博朋克”,再选择“光从左侧打来”。

就能得到一张崭新的成品:

哪怕是日常场景也是适用的。

最后出的效果肉眼看还是比较自然:

根据网友分享的测评,动漫场景也适用……

背后技术

如前所说,IC-Light现在提供两类模型,两种模型都需要以前景图像作为输入。

一类是文本条件重照明模型

简单来说就是用户可以通过输入提示词来搞定生成。

比如输入“左侧光线”“月光”等,模型会通过这些提示词和初始潜变量,来生成符合要求和特征的图像。

另一类是背景条件模型

这种就更简单了,不需要复杂的提示词,模型结合背景提示信息,对前景的物体进行不同风格的光照变化。

而其背后的技术原理,是通过潜在空间的一致性,确保模型输出在不同光源组合下具有一致性,从而可以稳定地合成各种光照效果

具体如下——

在HDR空间中,所有照明的光线传输都彼此独立,不同光源的外观混合效果与多光源直接作用下的外观在数学上(也就是理想状态下)是一致的。

以上面这张图的灯光阶段为例,来自“外观混合”和“光源混合”的两个图像是一致的,(理想情况下,在HDR空间中数学上等效)

因此,在训练重新照明模型时,研究人员在潜在空间中使用多层感知机(MLP)让不同光源的组合和传输具有一致性,并用来指导生成效果。

最终产生高度一致的重新光照效果。

由于模型使用了潜在扩散技术,因此可以在潜在空间内实现学习和重光照操作,从而在各种光照条件下产生高度一致的效果。

这些结果非常一致——尽管在训练时,模型没有直接使用法线图数据,但可以将不同的重新光照合并为法线贴图。

看下面这张图,从左到右依次是输入、模型输出、重新照明、分割的阴影图像和合并的法线贴图。

感兴趣的小伙伴可以前往下面地址试玩儿哟~

GitHub直通车:
https://github.com/lllyasviel/IC-Light?tab=readme-ov-file

— 联系作者 —

—  —

点这里👇关注我,记得标星哦~

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见 ~ 

相关推荐

  • AI顶会ICLR,今年只有一家中国大模型公司受邀演讲
  • 深圳内推 | 腾讯AI Lab招聘3D人体动作感知和生成方向实习生
  • 原作者带队!LSTM真杀回来了:我要夺回Transformer拿走的一切
  • CVPR 2024 | 多模态合作学习的新视角:样本级模态的评估与协同
  • 以蒸馏的名义:“从去噪自编码器到生成模型”重出江湖
  • 大模型多烧钱?明星独角兽揭秘训练成本:明年或达100亿美元
  • 马斯克首例脑机接口人体试验曝故障!Neuralink:接线脱落,不影响安全
  • 深度解密:苹果只讲了3分钟的这块屏,将引爆千亿市场
  • 14 项任务测下来,GPT4V、Gemini等多模态大模型竟都没什么视觉感知能力?
  • 3倍生成速度还降内存成本,超越Medusa2的高效解码框架终于来了
  • 苹果启动AI云服务器计划,芯片直接用M2 Ultra
  • 马斯克Neuralink植入物出故障:受试者接线脱落
  • 在ICLR 2024这场演讲中,智谱AI首次公开神秘项目「GLM-zero」
  • 奠基性VAE荣获ICLR首届「时间检验奖」!国内学者获2篇杰出论文提名
  • 开脑100天,马斯克首位脑机接口患者出故障?瘫痪8年小哥术后并发症惹质疑
  • 抛弃自回归,连接一致性Diffusion和LLM!UCSD上交新作热度紧追AF 3
  • 十年磨一「图」,谷歌震撼发布纳米级人脑图谱!AI加持人类大脑研究
  • 图灵巨头现身ICLR,顶会现场疯狂追星LeCun、Bengio!中国团队三大技术趋势引爆AGI新想象
  • VS Code劲敌、Atom原作者主导、Rust编写的“最好”编辑器——Zed开始支持Linux
  • 如何通过分散原则保证系统高可用